OpenAI 发布并开源医疗测试基准 HealthBench,旨在更好地衡量 AI 系统在医疗健康领域能力

发布时间:2025-05-13 09:10:09 来源:互联网

本站 5 月 13 日消息,OpenAI 今日宣布推出了一个专门面向医疗大模型的测试评估集 ——HealthBench 并开源,旨在更好地衡量 AI 系统在医疗健康领域能力。

与以往测试集不同的是,HealthBench的 5000 段核心测试对话,由来自 60 个国家 / 地区的 26 个专业 262 名医生打造,极大增强了该测试集的难度、真实性以及丰富度。

与以前的狭窄基准不同,HealthBench 通过 48562 个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景(例如,紧急情况、全球健康)和行为维度(例如,准确性、遵循指示、沟通)。

此外,HealthBench采用了多轮对话测试,而不是简单的答题或选择题模式。本站注意到,测试数据显示大模型在医疗保健领域的表现有了显著提升。例如,从之前的 GPT-3.5Turbo 的 16% 到 GPT-4o 的 32%,再到 o3 的 60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1nano 不仅在性能上超越了 GPT-4o,而且成本降低了 25 倍。

参考资料:

  • 《HealthBench: Evaluating Large Language ModelsTowards Improved Human Health》

本周热门攻略

1
人狗大战9免费观看正版:如何轻松找到合适的观看途径?

人狗大战9免费观看正版:如何轻松找到合适的观看途径?

2025/04/07

2
三星谈电视业务受美国关税影响:北美大部分电视在墨西哥生产,问题不大

三星谈电视业务受美国关税影响:北美大部分电视在墨西哥生产,问题不大

2025/04/07

3
“zoom动物人配人马”是什么?它的文化象征和艺术表现有哪些独特之处?

“zoom动物人配人马”是什么?它的文化象征和艺术表现有哪些独特之处?

2025/04/07

4
科技昨夜今晨 0505:“五一”假期高速服务区新能源汽车充电量创历史新高;小米汽车将智驾更名为辅助驾驶;苹果 CEO 库克致敬巴菲特...

科技昨夜今晨 0505:“五一”假期高速服务区新能源汽车充电量创历史新高;小米汽车将智驾更名为辅助驾驶;苹果 CEO 库克致敬巴菲特...

2025/05/05

5
《小妈爱上继子》免费观看电视剧,究竟有何看点?

《小妈爱上继子》免费观看电视剧,究竟有何看点?

2025/04/07

6
爸爸的擎天柱为何如此引人入胜?让我一口气看完第二集!

爸爸的擎天柱为何如此引人入胜?让我一口气看完第二集!

2025/04/07

7
iOS 版 Spotify 迎“史诗级更新”:用户可跳转至苹果以外平台付款

iOS 版 Spotify 迎“史诗级更新”:用户可跳转至苹果以外平台付款

2025/05/03

8
瑞安航空 CEO 迈克尔・奥利里:若波音涨价,将考虑购买中国飞机

瑞安航空 CEO 迈克尔・奥利里:若波音涨价,将考虑购买中国飞机

2025/05/03

9
小米平板 7 Max 有望更名 Ultra:已通过蓝牙认证,120W 快充

小米平板 7 Max 有望更名 Ultra:已通过蓝牙认证,120W 快充

2025/05/03

10
石头推出 M1S Pure 迷你洗烘一体机:1.9 洗净比、1.2KG 滚筒,1999 元(国补后 1599.2 元)

石头推出 M1S Pure 迷你洗烘一体机:1.9 洗净比、1.2KG 滚筒,1999 元(国补后 1599.2 元)

2025/05/04