夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 106|回复: 5

[数码资讯] OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:829
发表于 2024-10-31 08:20 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
当地时间 30 日,OpenAI 宣布,为了衡量语言模型的准确性,将开源一个名为 SimpleQA 的新基准,可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。

AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠,可以用于更广泛的应用领域。



OpenAI 表示,目标是使用 SimpleQA 创建一个具备以下特点的数据集:

高正确性:问题的参考答案由两名独立的 AI 训练师验证,以确保评分的公正性。

多样性:SimpleQA 涵盖广泛主题,从科学技术到电视节目与电子游戏应有尽有。

前沿挑战性:与 TriviaQA(2017 年)或 NQ(2019 年)等早期基准相比,SimpleQA 更具挑战性,尤其针对如 GPT-4o 等前沿模型(例如,GPT-4o 的得分不足 40%)。

高效用户体验:SimpleQA 问题与答案简洁明了,使操作快速高效,并可通过 OpenAI API 等进行快速评分。此外,包含 4326 道问题的 SimpleQA 在评估中应具有较低的方差。

SimpleQA 将是一个简单但具有挑战性的基准,用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确,但它只在短查询的受限设置中测量事实准确性,这些查询是事实导向的,并且有一个可验证的答案。

OpenAI 表示,模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关,这仍是个悬而未决的研究课题。其希望 SimpleQA 的开源能够进一步推动 AI 研究的发展,使模型更加可信并富有可靠性。
  • 打卡等级:已臻大成
  • 打卡总天数:648
发表于 2024-10-31 08:21 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:300
发表于 2024-10-31 09:08 | 显示全部楼层
版区有您更精彩
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:524
发表于 2024-10-31 10:37 | 显示全部楼层
感谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:832
发表于 2024-10-31 10:54 | 显示全部楼层
感谢分享OpenAI资讯
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:816
发表于 2024-10-31 11:45 | 显示全部楼层
谢谢楼主分享。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )

GMT+8, 2026-6-6 06:41 , Processed in 0.233732 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表