阅读了原文,ChatGPT推出了语音和图像的新能力,让用户可以用语音对话或展示图像来与ChatGPT交流。
语音交流
语音对话的使用方法:用户可以在移动端的设置中开启语音对话功能,然后选择自己喜欢的五种声音之一。语音对话由新的文本到语音模型和Whisper语音识别系统支持。
语音功能将在未来两周内向Plus和Enterprise用户推出,且在iOS和Android平台上提供(需要在设置中开启)。
说到语音交流,New Bing早就可以了。
![](http://pic1.zhimg.com/v2-46abf6c7e21127f120c3078f83b7406f_r.jpg?source=1940ef5c)
此外,在ChatGPT可以使用Voice Control for ChatGPT的插件也可以实现语音功能。
![](http://pic1.zhimg.com/v2-ccf12afe252a5ea3563d4a76b49a9092_r.jpg?source=1940ef5c)
但是,这次的语音交流,提供了五种音色,类似于人类的音色,还有语气,确实不错。不知道,后面可不可以实现文本转语音,再下载下来当音频使用。
官方视频:
![](http://pic1.zhimg.com/50/v2-d5f8d22fe93bbb5875204e859859fc58_720w.jpg?source=1940ef5c)
图像理解
图像理解的使用方法:用户可以拍摄或选择一张或多张图像,让ChatGPT分析和评论。图像功能由多模态GPT-3.5和GPT-4模型驱动,这些模型可以将它们的语言推理能力应用到各种类型的图片上,如照片、截图和文本图像混合的文档。
图像理解功能也将在未来两周内向Plus和Enterprise用户推出。图像功能将在所有平台上提供。其他用户群体,如开发者,也将在不久后体验到这些功能。
还记得GPT-4发布时,OpenAI 联合创始人 Greg Brockman 通过一个案例展示了GPT-4的图像理解能力,这次终于来了。
该案例详情:
步骤一:在本子上随意画了个网站草图,或者说是一个网站Demo(demonstration,其中文含意为示范、展示、样片、样稿,常被用来称呼具有示范或展示功能及意味的事物)。
![](http://pica.zhimg.com/v2-59b03315f22bf0814628e7406c30fa5c_r.jpg?source=1940ef5c)
步骤二:用手机将草图拍下来。
![](http://pic1.zhimg.com/v2-363a8f431c439eb2f4bf2e6efe2b65ac_r.jpg?source=1940ef5c)
步骤三:将照片发给GPT-4模型,并给出要求:Write brief HTML/JS to turn this mock-up into a colorful website, where the jokes are replaced by two real jokes.
![](http://pica.zhimg.com/v2-50963277ed7646900ec35b67ed83921b_r.jpg?source=1940ef5c)
如图所示是GPT-4对提问者提问文本的理解。
![](http://pic1.zhimg.com/v2-e29ff0fcf2b5edbd2ee8838e9877733b_r.jpg?source=1940ef5c)
步骤四:将GPT-4回答出的代码,复制粘贴至编程软件并运行。
![](http://pic1.zhimg.com/v2-e0f141e7f54c999aac0e245487c96738_r.jpg?source=1940ef5c)
如下图所示My Joke Website网站就出来了。
![](http://picx.zhimg.com/v2-758142c440224e2af5a499689eb24324_r.jpg?source=1940ef5c)
关于图像理解能力,其实我们平时使用Edge 侧边栏的Bing Chat 也可以识别文章中的图片,并做出解释,有着自己的理解。
而这次新能力则是应用场景更加广泛,毕竟直接拍照上传图片还是非常nice的。
官方视频:
![](http://pica.zhimg.com/50/v2-65d87e8885ea32c02141ce293d490f0d_720w.jpg?source=1940ef5c)
文献参考:
ChatGPT can now see, hear, and speakGPT-4 发布,ChatGPT 迎来大升级!GPT-4和 New Bing 阅读理解大比拼:哪一个更强? |