幻觉 - 人工智能的目标恶化,更糟,它将继续
发布时间:2025-05-15 10:19
来自OpenAI和Google等技术公司的人工(AI)聊天机器人在过去几个月中一直在进行所谓的推理升级,因此,他们更好地提供了人们信任的答案。但是最近的试验表明,有时它们会比以前的模型差。聊天机器人犯的错误被称为“幻觉”,从出生起就一直是一个问题,现在看来人们可能不会摆脱它们。幻觉是由大型语言模型(LLMS)犯下的某种错误的一般术语,即Openai的Chatgpt或Google的Gemini等电气系统。有时他们将错误消息显示为真实信息。同样意味着要小心AI产生的答案是正确的,但与已经询问的TWHAT确实无关,或者在某些方面不遵循指令。 OpenAI的一份技术报告评论了最新的LLM,表明今年4月发布的O3和O4-Mini模型的幻觉高于2024年底发布的O1型号。例如,当总结公众关于人的事实时,O3的时间有33%,而O4-Mini的时间为48%。相比之下,O1的幻觉率为16%。这个问题不仅限于OpenAI。美国对Vectara发布的幻觉的评论表明,与以前开发的模型相比,一些“识别”模型,包括中国DeepSeek开发的DeepSeek-R1模型,增加了两次幻觉。这种类型的模型在响应之前通过多个步骤显示了理解过程。 Openai说,推理本身的过程不应归咎于。 Openai发言人说:“在评估模型中,炼金术并不自然而然,我们努力减少O3和O4-Mini的更高幻觉。”但是,由于幻觉的存在,某些潜在的LLM应用可能会失败。不断讲错误并需要检查事实的模型不是有用的研究助手。律师助理机器人在提到精神案件可以使律师陷入问题……AI首先声称该问题会随着时间的流逝而解决。实际上,起初,模型的幻觉往往会减少更新。但是,如果推理本身是错误的,那么最近的高幻觉版本 - Guni很复杂。 Vectara排名是基于以下事实进行排名的:在汇总其提供的文档时,模型是相同的。 Vectara的Forrest Sheng Bao表示:“至少在OpenAI和Google Systems中,识别模型的幻觉率非常相似,至少在OpenAI和Google Systems中。鲍说,出于等级的目的,具体的集会速率数字并不像每个模型的总排名那样重要。但是,这种排名可能并不是一个最佳的型号。 Vectara的团队指出,尽管DeepSeek-R1模型的幻想率为14.3%,但大部分是THem是“慷慨的”:这些答案是合理的,逻辑上的推理或KAT SupportAlright是合理的,但不仅存在于所请求的原始文本中。该排名的另一个问题是基于文本的摘要的测试,即“在将LLM用于其他任务时无法解释错误的可能性”。他说,这些等级的结果可能不是判断这一技术的最佳方法,因为LLM并非专门设计用于总结文本。美国普林斯顿大学的Arvind Narayan说,这个问题不仅仅是幻觉。模型可以犯其他错误,例如使用不可靠的资源或使用过时的信息。仅在AI中投入更多的培训数据和计算能力并不需要提供帮助。结果可能是我们需要与AI易受的错误在一起。 Narayanan说,在某些MGA情况下,最好仅使用这些模型来完成任务,因为AI的答案比单独进行研究更快。。但是本德说,最好的办法可能是避免依靠AI聊天机器人提供现实信息。