ChatGPT 现在能看、能听和、说话

美都新闻网 9 月 26 日(综合报道):人工智能界日益强的功能让人类越来越惊讶,人工智能领域的知名创业公司OpenAI开发的ChatGPT现在不仅可以用书面文字进行交流,还可以用语音进行交流并识别图像。

雅加达时间9月25日,OpenAI发布题为《ChatGPT现在能看、能听、能说》的公告,宣布将在未来两周时间里向付费用户推送这项功能。

OpenAI在ChatGPT中推出了新的语音和图像功能,提供了一种新、更直观的界面,允许用户进行语音对话或跟ChatGPT对话。

 语音和图像为用户在日常生活中使用ChatGPT提供更多方式。例如,用户可以拍摄冰箱和厨房里物品的照片,然后了解今天晚餐的菜单上有什么。晚餐后,还可以通过拍照、圈出问题集并要求ChatGPT分享寻找答案的线索来帮助孩子解决数学问题。

用户现在可以使用语音与ChatGPT进行来回对话。在旅行时与他交谈,向家人询问睡前故事,或解决餐桌上的争吵。

要开始交互时,请打开“设置”,然后在移动应用程序中选择“新功能”并参与语音对话。然后,点击屏幕右上角的耳机按钮,从五种不同的声音中选择喜欢的声音。

这些新语音功能由新的文本转语音模型支持,能够仅从文本和几秒钟的语音样本生成类似人类的音频。

OpenAI与专业配音演员合作创作了每一个声音。OpenAI方面表示,我们还使用我们的开源语音识别系统Whisper将用户所说的单词转录成文本。

要开始与图像对话,请点击照片按钮拍摄或选择图像。如果使用的是 iOS 或Android,请先点击加号按钮。用户还可以讨论多个图像或使用绘图工具来指导ChatGPT。

ChatGPT图像理解由多模态GPT-3.5和GPT-4支持。 该模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。

然而,OpenAI 承认,已采取技术措施来显着限制ChatGPT分析和直接发表有关人员的陈述能力,因为ChatGPT并不总是准确,而且系统必须尊重个人隐私。

OpenAI 将在接下来的两周内向Plus和Enterprise用户推出语音和图像功能。声音将在iOS和Android上提供,图形将在所有平台上提供。

( 雨林编辑 来源: 美都新闻网)

发表评论

邮箱地址不会被公开。 必填项已用*标注