和平日报 | ChatGPT 现在能看、能听和、说话

美都新闻网 9 月 26 日（综合报道）：人工智能界日益强的功能让人类越来越惊讶，人工智能领域的知名创业公司OpenAI开发的ChatGPT现在不仅可以用书面文字进行交流，还可以用语音进行交流并识别图像。

雅加达时间9月25日，OpenAI发布题为《ChatGPT现在能看、能听、能说》的公告，宣布将在未来两周时间里向付费用户推送这项功能。

OpenAI在ChatGPT中推出了新的语音和图像功能，提供了一种新、更直观的界面，允许用户进行语音对话或跟ChatGPT对话。

语音和图像为用户在日常生活中使用ChatGPT提供更多方式。例如，用户可以拍摄冰箱和厨房里物品的照片，然后了解今天晚餐的菜单上有什么。晚餐后，还可以通过拍照、圈出问题集并要求ChatGPT分享寻找答案的线索来帮助孩子解决数学问题。

用户现在可以使用语音与ChatGPT进行来回对话。在旅行时与他交谈，向家人询问睡前故事，或解决餐桌上的争吵。

要开始交互时，请打开“设置”，然后在移动应用程序中选择“新功能”并参与语音对话。然后，点击屏幕右上角的耳机按钮，从五种不同的声音中选择喜欢的声音。

这些新语音功能由新的文本转语音模型支持，能够仅从文本和几秒钟的语音样本生成类似人类的音频。

OpenAI与专业配音演员合作创作了每一个声音。OpenAI方面表示，我们还使用我们的开源语音识别系统Whisper将用户所说的单词转录成文本。

要开始与图像对话，请点击照片按钮拍摄或选择图像。如果使用的是 iOS 或Android，请先点击加号按钮。用户还可以讨论多个图像或使用绘图工具来指导ChatGPT。

ChatGPT图像理解由多模态GPT-3.5和GPT-4支持。该模型将其语言推理技能应用于各种图像，例如照片、屏幕截图以及包含文本和图像的文档。

然而，OpenAI 承认，已采取技术措施来显着限制ChatGPT分析和直接发表有关人员的陈述能力，因为ChatGPT并不总是准确，而且系统必须尊重个人隐私。

OpenAI 将在接下来的两周内向Plus和Enterprise用户推出语音和图像功能。声音将在iOS和Android上提供，图形将在所有平台上提供。

( 雨林编辑来源：美都新闻网）