一个令人惊艳的ChatGPT项目开源了!ChatGPT从此以后能处理更复杂的视觉任务

最近在GitHub上发现了一个爆火的开源项目。

好家伙,凑近一看,居然还是由微软开源,并且和最近炙手可热的ChatGPT息息相关

项目的名字叫做:Visual ChatGPT

github.com/microsoft/v…

一个令人惊艳的ChatGPT项目开源了!ChatGPT从此以后能处理更复杂的视觉任务

这个项目最早是3月上旬微软开源的,项目宣布开源后仅用了短短一周,就斩获了2w+ star。

一个令人惊艳的ChatGPT项目开源了!ChatGPT从此以后能处理更复杂的视觉任务

到现在为止,距离当初项目开源大约过去了3周多,仓库star数则来到了28k+,亦可谓是火箭式上涨(doge)。

众所周知,ChatGPT自2022年11月推出以来,持续走红。

一个令人惊艳的ChatGPT项目开源了!ChatGPT从此以后能处理更复杂的视觉任务

ChatGPT具备强大的会话能力,可以理解文字、聊天、写小说、解答问题、编写代码… 但是目前还并不能直接处理或生成图像。

而Visual ChatGPT这个项目则可以把ChatGPT和一系列视觉基础模型(VFM,Visual Foundation Model)给联系起来,以便实现在ChatGPT聊天的过程中来发送和接收图像,也使得ChatGPT能够处理更为复杂的视觉任务。

一个令人惊艳的ChatGPT项目开源了!ChatGPT从此以后能处理更复杂的视觉任务

讲白了,就是通过Visual ChatGPT,可以把一系列视觉基础模型给接入ChatGPT,使得ChatGPT能胜任更为复杂的视觉处理任务。

一个令人惊艳的ChatGPT项目开源了!ChatGPT从此以后能处理更复杂的视觉任务

Visual ChatGPT的整体技术架构图如上所示,我们可以清楚地看到ChatGPT和视觉基础模型(VFM,Visual Foundation Model)分别位于其中的位置。

一方面,ChatGPT(或LLM)作为一个通用接口,继续发挥它本身的优势,提供对不同话题的智能理解。另一方面,基础视觉模型VFM则通过提供特定领域的深入知识来充当领域专家,它们通过交互管理模块(Prompt Manger)进行连接和适配。

这样聊可能比较抽象,我们可以拿官方给的一个例子来进行说明:

一个令人惊艳的ChatGPT项目开源了!ChatGPT从此以后能处理更复杂的视觉任务

1、首先是用户:输入一张黄色的向日葵图片,并且要求ChatGPT根据该图像预测深度来生成一朵红花,然后再一步一步将其做成卡通画。

2、接着是交互管理模块(Prompt Manger)发挥作用,在它的协调和控制下,VFM模块开始发挥作用:

  • 首先需要运用深度估计模型来预测并生成图像的深度信息;
  • 然后需要运用深度图像模型来生成对应空间深度的红花图像;
  • 最后运用Stable Diffusion的风格迁移模型来完成图像风格的变换。

3、最后Visual ChatGPT系统再将最终结果返回给用户,完成本次对话。

说到这里,有兴趣的小伙伴可以可以看看微软给出的一篇有关Visual ChatGPT的论文。

一个令人惊艳的ChatGPT项目开源了!ChatGPT从此以后能处理更复杂的视觉任务

里面关于这部分的流程解释得非常详细,而且还给出了多轮对话的案例、以及实验结果,有兴趣的小伙伴可以看看。

本文转载自CodeSheep,只做主题效果测试使用,本文观点不代表中广智媒(北京)科技有限公司立场。

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年6月2日 上午11:20
下一篇 2023年6月2日 上午11:39

相关推荐

  • AI绘画落地实战!如何用 Midjourney 快速搞定主视觉海报设计?

    前言 从几个月前 AIGC 的兴起到现在,各行各业已经有许多团队将之运用在工作流程当中。 其中,Midjourney 的到来,不仅在一定程度上提升了设计师们的工作效率,也为设计师提供了更多设计方式上的可能性。 其快速出图的特点帮助设计师节省了设计初稿的时间,可圈可点的画面构图与光影关系又给设计师带来许多灵感与参考。 那么,到底该如何运用 Midjourney…

    2023年6月2日
    00
  • AI帮你玩游戏?用ChatGPT控制游戏NPC 行动逼真到像正常人

    “让开放世界游戏相形见绌” 放任25个AI共同生活,他们竟然模拟起了人类的行动! 不仅像人一样起床、刷牙、吃饭、睡觉,还会被迫“出门打工”,甚至在闲暇时分一起庆祝节日。 这一切,来自斯坦福和谷歌的一项新研究—— 他们做了一个很新的实验,创造了25个AI NPC,每个NPC都有不同的身份和行动决策,并让它们在一个沙盒环境中共同生活,背后依靠ChatGPT大模型…

    2023年4月12日
    00
  • 只需4步 让ChatGPT帮你优化网站排名

    您是否正在努力提高网站在搜索引擎上的排名?网站结构是影响网站SEO的重要因素之一。一个良好组织的网站结构不仅可以帮助搜索引擎理解您网站的内容,而且可以提高用户体验。本文将讨论SILO结构的概念以及如何为您的网站创建SILO结构,从而提高您网站在搜索引擎结果页面(SERP)上的可见性。 什么是SILO结构? SILO结构是一种网站架构策略,将网站内容分为特定的…

    2023年4月12日
    00
  • ChatGPT 九大插件在网上爆火:网页制作神器,看图写菜谱、解析代码等样样齐活儿

    新插件又双叒叕来了!继两个月前ChatGPT爆出插件功能后,这场插件狂欢真就是越来越热闹。 比如让我们更方便地创建网站: 提取YouTube视频概要: 还有像将文本转换为HQ音频,从照片中提取信息,解析代码,生成图像,帮助招聘和分析PDF,甚至辅助投资决策…… 这些功能,在推特的ChatGPT “cosplay现场”被一一展示。 一位AI从业者网友发帖展示了…

    2023年5月17日
    00
体验小程序
体验小程序
分享本页
返回顶部