400-615-3026 扫描微信

医院医疗直播|医疗版ChatGPT直播评测,治疗方案与真人医生96%一致

发布时间:2024-04-13

奥飞寺杨景发

量子比特 | 公众号QbitAI

该国首个大规模医疗模式已经“接待”患者。

直播医疗医院是骗局吗_医疗院直播间_医院医疗直播

近日,一组AI医生的实际住院值班数据被曝光:

累计收治患者120余例,覆盖从咨询、检查到诊断、治疗方案的全过程;

涉及心血管内科、消化内科、呼吸内科、内分泌科、肾脏内科、骨科、泌尿内科七大病科,患者疾病类别多样、复杂程度不同;

医疗水平不逊于国内三级医院主治医生,诊疗方案与真实医生一致性达到96%;

来自北京大学人民医院、中日友好医院、阜外医院、友谊医院等国内顶级医院的七位专家教授齐聚一堂,纷纷表示赞同。

对AI医生进行如此公开、大规模的评价,在国内还是第一次,在全球也是第一次。

更让人意想不到的是,其背后的主角MedGPT,一个基于Transformer的千亿参数大模型,上线也才一个月时间。

目前,在实际诊疗中,已经具备多轮持续对话、多模态能力。 在未来规划中,MedGPT还将推出医疗版Plugin Store,预计将搭载1000+医疗应用,极大丰富AI医生的诊疗工具,提高诊疗效率。

从上面的数据和性能来看,96%的一致性是出乎意料的。

这样的迭代速度更是让人意想不到。

MedGPT直播首秀:接待100名患者

这第一次直播,其实是对人机医学一致性的真实评价。 除了AI医生MedGPT外,还有来自四川大学华西医院的10名主治医师也参与其中。

为保证评审的权威性和科学性,一方面由国内顶尖医院的专家教授组成的评审团进行评审和多维度评分。

另一方面,整个流程也经过了专门设计。 简单来说,患者走进房间问诊,却是在和一个有行医资格的“翻译”交谈。 翻译器将电脑上患者的主诉分别传递给真实医生和AI医生。 经过多轮来回,最终根据检查结果给出诊断。

就像AlphaGo对抗围棋世界时一样,中间帮助Alpha执行“走”动作的棋手就是“翻译者”。

医院医疗直播_直播医疗医院是骗局吗_医疗院直播间

这样,AI医生和真实医生互不干扰,条件基本相同,双方都可以做出独立判断。

医疗院直播间_直播医疗医院是骗局吗_医院医疗直播

最终,经过一天的鏖战,真人医生的综合评分为7.5分,AI医生的综合评分为7.2分。 评分结果一致性达到96%。

医院医疗直播_医疗院直播间_直播医疗医院是骗局吗

在评审过程中,专家们还发现了一些意想不到的“惊喜”:

比如漏诊、误诊的概率比较小。

北京大学人民医院薛峰主任发现,经过多轮询问,MedGPT可以根据患者单侧疼痛症状推断诊断“可能颈神经受压”。

这意味着,就知识储备而言,人工智能医生实际上可能比经验不足的医生更高。

此外,MedGPT在治疗过程中的“冷静”表现也受到称赞。

中日友好医院心内科主任医师任静一表示:我觉得最好的是,在诊断不明确的情况下,MedGPT不会轻易给出结论,而是坚持通过持续会诊收集更多信息或考试。

所以尽管MedGPT还存在一些问题,她仍然给了它比真正医生更高的分数,并直言:这是一个里程碑式的结果。

医疗院直播间_医院医疗直播_直播医疗医院是骗局吗

不可否认,MedGPT仍然存在一些问题需要调整。 多位专家指出,其存在偶尔出现过度治疗建议、重复推荐检查项目、某些概念表达不准确、无法进行体检等局限性。 如果你想要 MedGPT,更多可用,这些意见比正面评论更重要。

但总体来说,大型医疗模型首次公开亮相的成绩还是不错的。

总结一下,首先大模型具备了基础能力,比如语义理解、多轮对话、多模态识别等,还可以通过像OpenAI这样的插件商店联动各种行业应用。

大型通用模型还存在广受诟病的对齐和精度问题。 整个MedGPT过程的结果并不逊色于真正的医生。

从行业角度来看,它确实可以从医学角度为医生提供有效帮助,提高患者疾病管理的效率。

在这次真实测试中可以看到,基于有效的会诊和体检数据,MedGPT可以准确地诊断疾病并为患者设计疾病治疗方案。

直播医疗医院是骗局吗_医疗院直播间_医院医疗直播

即使确诊后,MedGPT也会为患者提供用药指导与管理、智能随访与复查、患者服药后康复指导等智能疾病管理。

目前基本涵盖了ICD10中60%的疾病,也就是说常见病都能hold住~

它还可以 24/7 工作。 一旦大规模实施,辅助医生诊疗,可以极大提高医疗效率。 能够在分级诊疗、普惠医疗资源方面发挥一定的作用。

如何打造第一个大型医疗模型?

医疗一直是人工智能落地专业性最强、门槛最高、安全性要求最高的领域之一。

过去,用户会习惯性地通过信息搜索来帮助自己做出一些初步的疾病判断。 但信息鱼龙混杂,普通用户缺乏专业知识,无法有效筛选,往往收效甚微。

但由于这个领域涉及每个人的生命健康,所以市场需求和社会价值一直很大。

因此,自ChatGPT诞生以来,ChatGPT何时能够在医疗领域发挥作用,就备受产学研各界专家的关注。

正如“Retarded Bar”成为检验各种大型通用模型能力的标杆一样,各个大型模型的医疗能力也在为USMLE摩拳擦掌。

此前,哈佛大学教授亲自测试了ChatGPT的辅助诊断性能。

结果显示,ChatGPT 正确诊断了 45 例病例中的 39 例,并为 30 例提供了适当的分诊建议。 这种性能已经超过了现在的机器诊断水平,接近医生的诊断水平。

另一个代表是Google Health团队打造的Med-PaLM 2,可以回答各种医学问题,据说是第一个在美国医师执照考试中达到专家级别的大型语言模型。

直播医疗医院是骗局吗_医院医疗直播_医疗院直播间

但能做题并不代表就能应用到实践中。

以GPT-4为首的通用大型模型高度依赖文本统计概率来生成答案。 相信大家也能感受到它很会认真地胡说八道。 如果用在日常交流中,一定会很有趣。

但如果应用到行业中,非专业人士往往很难察觉,从而会带来各种风险。 尤其是医疗等民生行业,对内容生成的把控要求更高,容不得半点差错。

更何况医疗本身涉及的知识面广、复杂。 从整个医疗流程来看,诊断前、诊断中、诊断后都涉及各种长尾任务。 所需的高质量数据可能不会比一般模型小。 而且大部分数据并不是从互联网上提取的。

直播医疗医院是骗局吗_医疗院直播间_医院医疗直播

对于企业来说,这不仅仅是算法、算力和数据的考验,而是一整套的系统工程问题。

那么,作为国内首个大规模医疗模式MedGPT,它是如何做到的呢?

简单总结:专业的大模型,以及多重精准机制保护框架。

首先,从一开始就建立一个大的医疗模型。

之前专业大模型的思路是先建立一个大模型,然后用专业数据进行监督和微调。 然而,MedGPT 直接依赖于医疗数据预训练、微调以及 RLHF 机制中 100 多名医生的参与。

医疗院直播间_医院医疗直播_直播医疗医院是骗局吗

这要求企业不仅要深耕垂直行业,还要具备AI技术能力。 这就需要提到它背后的创始人——医学联合会。

在行业内,医联作为互联网医疗较早进入者,已积累超过150万医生和2000万患者。 稳定的医患关系链的长期互动,形成了大量的专业医疗数据。

此外,医联长期关注医疗与科技的深度融合,打造了近140个标准化疾病管理流程,涉及肿瘤、心脑血管疾病、糖尿病等常见疾病,涵盖更多1000多种疾病类型,形成一套完整的全数字化流程。 疾病管理系统。

在互联网医疗时代,这些疾病管理系统可以为行业提供在线管理的有效依据,提高行业的整体效率。 随着人工智能赋能的数字医疗产业的到来,这已成为人工智能医疗的重要基础。

医院医疗直播_医疗院直播间_直播医疗医院是骗局吗

对于AI,该公司早已关注和布局:早在2017年,医联就建立了医疗大数据结构化能力; 2018年实现了NLP、CV等AI技术的应用,如智能体液检测。 、智能分诊、口腔图像识别等场景。

2019年还推出了针对单一疾病/阶段的AI诊疗模型。 与多家医院和机构合作,打造亚洲首个多发性硬化症领域早筛AI模型,帮助患者提前1-3年改善多发性硬化症状况。 疾病风险预测和防控能力。

这些在人工智能领域的早期探索以及医学与前沿技术的长期融合,成为医联在行业内率先推出并应用大规模医疗模式的基础。 可以说,这一切并非偶然。

让我们更深入地了解一下。 为了保证大医学模型的准确性和一致性,医联体从模型到实际应用也做了大量的工作。

包括模型算法一致性验证机制、多维度诊疗评估机制、基于专家评审的现实医生一致性对标机制。

直播医疗医院是骗局吗_医疗院直播间_医院医疗直播

例如,在为患者输出正式答案之前,会经过临床医学尺的验证。 还聘请真人医生在电脑前做出判断,然后将结果提交给专家委员会审核,与真人医生进行对标。

基于这一方法论,医联团队在业内率先打造了专业的大型模型。

医疗AI 2.0拉开帷幕

最后,回到MedGPT公开评测本身,它也带来了大模型发展的三个趋势。

首先,医疗AI 2.0的大幕已经拉开,系统复杂性的问题将得到解决。

以大模型为代表的AI 2.0时代的到来——对话为入口,已经重新定义了所有应用场景。 人工智能辐射的数千个行业也在发生变化。

直播医疗医院是骗局吗_医院医疗直播_医疗院直播间

过去,AI 1.0,NLP、CV、多模态等单点技术蓬勃发展,医疗AI应用场景丰富多样。 他们有很强的规则性和可控性。 但场景与数据之间没有联系,导致泛化能力弱,无法处理系统复杂的问题。

感谢 Transformer,模式、数据和任务场景之间的障碍被打破。 在医疗场景中,利用海量的医学文本和数据进行高并发/远程学习集成,可以解决一些复杂的、系统性的问题。

如果我们继续想象,结合医疗联盟的云药房、云检查等云能力,不仅AI医生本身的疾病管理能力会得到提升,患者甚至可以摆脱地域限制,轻松完成所有疾病预防、诊断、治疗和康复。 全流程管理路径。

其实,这并不难想象。 你只需要知道有一个AI医生,可以看各个专业领域,堪比三甲医院的医生。 他可以一天24小时为您服务。 同时,所有的检验检测服务都可以在您家的1公里范围内完成。

有过在三级医院排队挂号就医经历的同学应该知道,专科挂号不到、病人要等一个月才能检查的情况时有发生。 依托MedGPT等专业模型降低成本,提高效率,解决行业问题,进入下一个医疗时代。

其次,大模型的行业红利并不掌握在科技巨头手中,而是掌握在有场景、有数据的玩家手中。

相信大家都或多或少的看到,医疗领域的特殊大型机型和产品不断发布,其中最具代表性的产品来自谷歌和微软两大厂商。

Google Med-PaLM 2 目前正在试验多模式功能,例如自行检查 X 射线并给出诊断。 它将在今年晚些时候向少数 Google Cloud 用户开放。

医疗院直播间_直播医疗医院是骗局吗_医院医疗直播

被微软以200亿美元收购的Nuance正在通过与微软OpenAI合作将GPT-4集成到临床笔记软件DAX中,以减轻临床医生的负担。

前者的大模型尚未真正实现,而后者无非是集成通用大模型的API,其行业准确性和一致性无法保证。

但MedGPT一亮相就惊艳全场,并斩获多项行业第一:

首次突破AI医生多轮对话难题;

首次实现了从有效咨询到医疗检查的跨越;

首次应用人工智能提供精准诊疗方案;

AI首次具备全流程诊断能力……

这与垂直领域、场景、数据的深耕有关。

医联深耕医疗行业9年,积累了丰富的知识、数据和应用,构筑了深厚的技术和用户壁垒。

大模型技术一旦实现应用,将基于现有的用户场景快速大规模落地。 这是其他潜在玩家无法拥有的先发优势。

当最后一波AI袭来时,最先利用AI加成的就是场景玩家了。

如今,收获大模型红利的依然是场景玩家,但技术路径已经变得清晰,实现速度自然比以前快很多。

第三,医疗AI的加速落地也印证了大模型的发展趋势——

滚雪球效应表明,从技术到应用部署的飞轮将转得越来越快。

一开始,ChatGPT只会说些严肃的废话。 短短几个月的时间,根据用户反馈和插件开发生态,真正被各行业人士加入到工作流程中,并推出了端侧应用。

还有中途和稳定扩散被诟病无法拉手的问题,但短短几周就可以解决; 以及国产大机型的出现,更新速度加快,闻心一言一个月可以迭代四次等等。

一旦打开“大模型-应用-数据”的加速闭环,产业落地的速度将比上一波更快。

医疗院直播间_直播医疗医院是骗局吗_医院医疗直播

医学会大型模型MedGPT仅用了一个月就进入了真实患者的全流程测试阶段。 之后,大模型就会基于数据飞轮进行迭代,执行速度只会越来越快。

或许很快,医疗AI2.0将惠及所有人。

- 超过-

北京市朝阳区公安局公备案号-110105001113 工业和信息化部京ICP备案号 京ICP备2023035641号-3