ChatGPT 重磅升级「可以看图、说话，几秒钟制作出逼真的 ...

truckrong · 发表于 2023-10-1 03:15:46|来自：北京

据OpenAI官网9月25日消息，OpenAI宣布在接下来的两周内，将在ChatGPT中向Plus和Enterprise用户推出语音和图像。语音将在iOS和Android上推出（在您的设置中选择加入），图像将在所有平台上提供。

图片来源：OpenAI官网

导航网络 · 发表于 2023-10-1 03:16:38|来自：北京

看完整个Open AI的官推，我只诞生了一个念头，AI女友不是梦！

回归正题
最近，AI初创公司Anthropic官方透露亚马逊将对其进行最多40亿美元战略投资。作为相应的回报，Anthropic承诺，将为亚马逊托管服务提供“增强型支持”，为全球各地的AWS开发者开放其基础模型使用权和抢先访问模型定制及微调的独特功能。

本以为这笔亚马逊迄今为止在生成式人工智能领域的最大投资已经足够吸睛，谁料仅仅4小时后，OpenAI就稳准狠地丢出一枚更加劲爆核弹：宣布正逐步为ChatGPT推出新的语音和图像功能，允许用户与 ChatGPT 进行语音直接对话或展示正在讨论的内容。简言之，就是ChatGPT会看、听、说了。

Open AI还是你大爷，不是不出手，出手必是杀招，前有DALL.E艳惊四座，后又有多模态模型杀器，世界被“Open AI正在彻底革新世界”征服。在人工智能多模态交互赛道上，OpenAI再下一城，成为领头羊。
根据OpenAI官方博文，这次更新的主要内容有两点：基于图片的对话和实时语音对话。
图片聊天

先说说最让人惊叹的图片聊天功能：在官方给出的视频例子里，拍了一张自行车照片给ChatGPT，询问它如何调低车座：

ChatGPT回答调低座位拢共分五步，接着给出详细解答，并表示如果手边有工具可以发给它看，以便提供进一步的指导。
用户接着拍下一张自行车零部件的局部照片，用官方绘图工具圈出示意问这是不是快拆杆？ChatGPT说你这是螺栓，需要找一个六角形扳手。
语音聊天

除此之外，OpenAI还推出了语音聊天功能。用户可以与ChatGPT实时语音对话。这项语音功能由一款新的文本转语音模型TTS提供支持，能够仅仅通过文本生成类似人类的音频。

OpenAI表示，这两项功能将在接下来的两周内向ChatGPT Plus和企业用户开放。

多模态新模型始于2022，OpenAI早就“遥遥领先”今天放出的ChatGPT-4语音和图像更新的模型，官方版本叫GPT-4V(ision)。根据OpenAI释出的报告显示，多模态新模型GPT-4V其实早在去年就已经训练好了，只是出于人工智能安全和合规考量才等到现在才放出来。

在报告中，OpenAI解释道：其最新开发的GPT-4V是一款具有视觉能力的语言模型，具备分析用户提供的图像输入并指示GPT-4进行分析的功能。这个模型融合了文本和视觉两种模式，拓展了过去仅限于文本的系统的影响范围和潜在风险。
OpenAI下一步将继续关注是否允许模型执行某些行为，提高全球用户的语言和图像识别能力，以及提高人像处理的精确度。

Open AI的虽有迟到从不缺席

而正处于AI生态浪潮之巅的多模态领域，可以跨越多种感官和数据源。通过声音、肢体语言、信息载体和环境等各种通道，充分模拟人与人之间的交互方式，为计算机提供无限接近于人类感知的场景，堪称计算机视觉和交互式人工智能的终极融合。可以说，谁最先在多模态大模型上完成布局，谁就抢占了当前AI生态的最有利先机。不仅可以依托强大的技术平台吸引庞大的用户群体、形成积极的开发者社区，从而实现更多应用程序的落地转化，还能联动广大的云计算、数据管理等基础设施提供商，获得更乐观的资本注入，在市场中扮演不可或缺的关键角色，进而推动整个AI生态系统的创新。
作为OpenAI一号领导者，Sam Altman本人商业嗅觉的超高灵敏度，也成为使OpenAI始终保持生成式人工智能领先玩家的因素之一。
今年5月，他在美国国会有史以来最引人注目的AI主题的听证会上，不仅没有被刁难，反而备受礼遇，成为全场的核心话事人，呼吁对AI进行监管，两天后旋即发布ChatGPT手机端APP；8月在微软发布必应聊天企业版后，推出ChatGPT企业版与其最大的投资者兼合作伙伴展开直接竞争；又在谷歌宣布自己的AI“大杀器”Gemini后，用DALL·E 3碾压级的图像处理能力把业界惊艳了一把。可以说在每个GenAI圈热点事件之后，都有Sam Altman带着OpenAI紧追不舍的“虽有迟到，从不缺席但到”，带来一波更大的高潮。
人工智能女友不是梦

有网友已经在期待更多天马行空的想法变成现实。比如，拍下每种食材让ChatGPT计算热量摄取，拍下习题让Chat GPT解答。还有网友调侃道：“离我的AI女友又近了一步”。

肝硬化 · 发表于 2023-10-1 03:16:52|来自：北京

我觉得现在确实是越来越多的人工智能的方式能够为我们进行服务了。而且如果能够语音或者是制作看图甚至是配图，那基本上新媒体的这个行业很多的设计就比较的简单。

bingfeng009 · 发表于 2023-10-1 03:17:30|来自：北京

阅读了原文，ChatGPT推出了语音和图像的新能力，让用户可以用语音对话或展示图像来与ChatGPT交流。
语音交流

语音对话的使用方法：用户可以在移动端的设置中开启语音对话功能，然后选择自己喜欢的五种声音之一。语音对话由新的文本到语音模型和Whisper语音识别系统支持。
语音功能将在未来两周内向Plus和Enterprise用户推出，且在iOS和Android平台上提供（需要在设置中开启）。
说到语音交流，New Bing早就可以了。

此外，在ChatGPT可以使用Voice Control for ChatGPT的插件也可以实现语音功能。

但是，这次的语音交流，提供了五种音色，类似于人类的音色，还有语气，确实不错。不知道，后面可不可以实现文本转语音，再下载下来当音频使用。
官方视频：

图像理解

图像理解的使用方法：用户可以拍摄或选择一张或多张图像，让ChatGPT分析和评论。图像功能由多模态GPT-3.5和GPT-4模型驱动，这些模型可以将它们的语言推理能力应用到各种类型的图片上，如照片、截图和文本图像混合的文档。
图像理解功能也将在未来两周内向Plus和Enterprise用户推出。图像功能将在所有平台上提供。其他用户群体，如开发者，也将在不久后体验到这些功能。
还记得GPT-4发布时，OpenAI 联合创始人 Greg Brockman 通过一个案例展示了GPT-4的图像理解能力，这次终于来了。
该案例详情：
步骤一：在本子上随意画了个网站草图，或者说是一个网站Demo（demonstration，其中文含意为示范、展示、样片、样稿，常被用来称呼具有示范或展示功能及意味的事物）。

步骤二：用手机将草图拍下来。

步骤三：将照片发给GPT-4模型，并给出要求：Write brief HTML/JS to turn this mock-up into a colorful website, where the jokes are replaced by two real jokes.

如图所示是GPT-4对提问者提问文本的理解。

步骤四：将GPT-4回答出的代码，复制粘贴至编程软件并运行。

如下图所示My Joke Website网站就出来了。

关于图像理解能力，其实我们平时使用Edge 侧边栏的Bing Chat 也可以识别文章中的图片，并做出解释，有着自己的理解。
而这次新能力则是应用场景更加广泛，毕竟直接拍照上传图片还是非常nice的。
官方视频：

文献参考：
ChatGPT can now see, hear, and speakGPT-4 发布，ChatGPT 迎来大升级！GPT-4和 New Bing 阅读理解大比拼：哪一个更强？

benben82 · 发表于 2023-10-1 03:18:06|来自：北京

二叔聊Ai：ChatGPT 从⼊⻔到精通（国内无魔法轻松使用）二叔聊Ai：ChatGPT需要魔法，国内如何低价使用GPT4？二叔聊Ai：小说推文项目进阶版： AI 小说推文，从零到一全流程拆解二叔聊Ai：美图设计|AI模特试衣|AI商品图|AI海报|AI LOGO|AI鞋服二叔聊Ai：AI写作副业项目，用指令写出10W+爆款微头条二叔聊Ai：这个 GPT 竟内置 1000+大型模型以及模型训练自定义！二叔聊Ai：抖音涨粉黑科技：1个月涨粉44万的AI小和尚说话视频二叔聊Ai：AI漫画推文制作，无门槛手机就可以操作！二叔聊Ai：深度学习技术助力企业创新与发展：智思AI企联系统

hk640509 · 发表于 2023-10-1 03:18:24|来自：北京

为知友们提供更多信息：
ChatGPT重磅升级：可以看图、说话，几秒钟制作出逼真的合成语音！

每经编辑杜宇
据OpenAI官网9月25日消息，OpenAI宣布在接下来的两周内，将在ChatGPT中向Plus和Enterprise用户推出语音和图像。语音将在iOS和Android上推出（在您的设置中选择加入），图像将在所有平台上提供。

图片来源：OpenAI官网

用语音与ChatGPT交流

语音输入功能类似于手机上的语音助手，用户只需按下一个按钮，说出自己的问题，ChatGPT 就会将其转换为文本，然后生成答案，再将答案转换为语音，播放给用户。

例如，让ChatGPT听一段小猫咪的文本故事，然后选择人类语音便可以一键完成转录。完成后，用户可以下载这段语音。

OpenAI称，这项新的语音技术能够从几秒钟的真实语音中制作出逼真的合成语音，为许多有创意和无障碍的应用打开了大门。然而，这些功能也带来了新的风险，例如恶意行为者可能冒充公众人物或实施欺诈。OpenAI 表示，这种模型不会被广泛开放，而是会受到严格的控制和限制。
图像输入功能：可以向ChatGPT提问图片

图像输入功能则类似于 Google Lens，用户可以拍摄自己感兴趣的事物，并上传到 ChatGPT 中。ChatGPT会尝试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题，或者配合语音或文本输入来进行交流。
用户可以向ChatGPT展示一张或多张图片，提问相关的问题。例如，发送一张坏掉的烧烤炉图片，然后询问无法启动原因；拍摄一张冰箱中的食材，询问多种菜品制作方案。
带视觉的GPT-4（GPT-4V）使用户能够指示GPT-4分析用户提供的图像输入，OpenAI称，这是我们广泛提供的最新功能。将额外的模态（如图像输入）纳入大型语言模型（LLM）被一些人视为人工智能研究和开发的关键前沿。多模式LLM提供了一种可能性，即通过新颖的接口和功能扩大纯语言系统的影响，使其能够解决新任务，并为用户提供新颖的体验。在该系统卡中，我们分析了GPT-4V的安全特性。我们在GPT-4V安全方面的工作建立在GPT-4的基础上，在这里我们深入研究了专门针对图像输入所做的评估、准备和缓解工作。
基于视觉的模型也带来了新的挑战，从对人的幻觉到在高风险领域依赖模型对图像的解释。在进行更广泛的部署之前，我们与红色团队成员一起测试了该模型在极端主义和科学熟练度等领域的风险，以及一组不同的阿尔法测试人员。我们的研究使我们能够在几个关键细节上保持一致，以便负责任地使用。
OpenAI还放出了一段视频，是和ChatGPT商量着修自行车，不断问 ChatGPT：这里是扳手吗？是调整这里吗？甚至还把说明书拍照发给ChatGPT求解释。

图片来源：OpenAI官网

OpenAI表示还采取了技术措施，大幅限制了ChatGPT分析和直接陈述他人的能力，因为ChatGPT并不总是准确的，这些系统应该尊重个人隐私。
机构看好AI相关板块

据中国基金报，国盛证券分析称，Chatgpt即将开放图生文及语音对话功能，AI技术持续迭代再翻新一页。
二级市场上，近期AI板块的走强，离不开行业利好的刺激。
7月13日，网信办等七部门联合公布《生成式人工智能服务管理暂行办法》。8月31日起，百度文心一言、讯飞星火等大模型正式向公众开放。9月5日，WPS AI正式面向社会开放，率先应用在WPS智能文档。
9月21日，微软举行了秋季发布会，在发布会上微软宣布将于本月26日发布Windows 11的下一个大更新23H2，据介绍本次系统更新将会有超过150项新功能，包括新的人工智能驱动的Windows Copilot功能。
国盛证券认为，Copilot发布进度超预期，AI办公的扩展速度及价值空间均远超预期。同时，国内AIGC监管已走上正轨、软件应用价值亟待释放。
天风证券表示，看好光模块为AI最强板块：光模块板块基本面一直以来利好不断。2024年800G预期大规模放量至千万只级别，海外、国内400G需求不断上调至800G同等规模。2025年800G需求持续且1.6T时代开启，光模块景气持续3年，供应格局没有变化。
每日经济新闻综合OpenAI官网、中国基金报、市场公开消息

ChatGPT 重磅升级「可以看图、说话，几秒钟制作出逼真的 ...

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家