太阳诚娱乐预防闲扯机械人“中伤”谷歌 Deepmind、斯坦福大学商量职员推出 AI 究竟核查用具
栏目:公司新闻 发布时间:2024-03-31
 IT之家 3 月 31 日音讯,无论当下 AI 闲聊机械人有何等宏大工具,城市或多或少存正在一大饱受诟病的作为 —— 以看上去令人信服的方法,向用户供应与底细不符的解答。方便来说,AI 有时会正在解答中“满口跑火车”,乃至“杜撰”。  造止 AI 大模子浮现这种作为并非易事,且是一项身手性的离间。然而据表媒 Marktechpost 报道,谷歌 DeepMind 和斯坦福大学宛如找到了某种变通

  IT之家 3 月 31 日音讯,无论当下 AI 闲聊机械人有何等宏大工具,城市或多或少存正在一大饱受诟病的作为 —— 以看上去令人信服的方法,向用户供应与底细不符的解答。方便来说,AI 有时会正在解答中“满口跑火车”,乃至“杜撰”。

  造止 AI 大模子浮现这种作为并非易事,且是一项身手性的离间。然而据表媒 Marktechpost 报道,谷歌 DeepMind 和斯坦福大学宛如找到了某种变通主意。

  钻研职员推出了一种基于大说话模子的器材 ——摸索加强底细评估器(IT之家注:原名为 Search-Augmented Factuality Evaluator,简称 SAFE),可对闲聊机械人天生的长答复实行底细核查。其钻研结果与实行代码太阳诚娱乐、数据集现已宣告,点此查看

  该编造可通过四个程序对闲聊机械人天生的答复实行剖判太阳诚娱乐太阳诚娱乐、治理和评估,以验证切确性和切实性:将谜底肢解成单个待核查实质、对上述实质实行改进、再与谷歌摸索结果实行比拟太阳诚娱乐。随后,该编造还会搜检各个底细与原始题方针相干性工具。

  为评估其机能,钻研职员创筑了蕴涵约 16000 个底细的数据集 LongFact,并正在来自 Claude太阳诚娱乐预防闲扯机械人“中伤”谷歌 Deepmind、斯坦福大学商量职员推出 AI 究竟核查用具、Gemini、GPT、PaLM-2 的 13 个大说话模子上测试了该编造。结果显示,正在对 100 个有争议的底细实行的中心剖判中,SAFE 的判断正在进一步审查下无误率到达 76% 。与此同时,该框架还具备经济性上风:本钱比人为解说低廉 20 多倍。

  告白声明:文内含有的对表跳转链接(蕴涵不限于超链接、二维码、口令等局势)工具,用于传达更多新闻,俭约甄选时刻太阳诚娱乐,结果仅供参考,IT之家一切作品均蕴涵本声明。