每日精选AI研究论文及翻译
推理是支撑推断、问题解决与决策制定的基本认知过程。尽管大语言模型在封闭环境中展现出强大的推理能力,但在开放动态环境中仍面临挑战。智能体推理通过将大语言模型重构为能够通过持续交互进行规划、行动与学习的自主智能体,标志着范式的转变。本综述从三个互补维度系统梳理智能体推理研究:首先,通过三层架构刻画环境动态性——基础智能体推理建立智能体在稳定环境中的核心单机能力(包括规划、工具使用与搜索);自我进化智能体推理研究智能体如何通过反馈、记忆与适应机制优化这些能力;集体多智能体推理将智能延伸至涉及协作、知识共享与共同目标的协同场景。跨越多层架构,我们区分了通过结构化编排扩展测试时交互的情境推理,与通过强化学习和监督微调优化行为的训练后推理。进而系统评述了科学、机器人、医疗、自主研究与数学等现实应用场景中的代表性智能体推理框架。本综述将智能体推理方法整合为连接思维与行动的统一路线图,并指出个性化、长周期交互、世界建模、可扩展多智能体训练及实际部署治理等开放挑战与未来方向。
深度研究智能体(DRAs)通过多轮检索与综合生成引证翔实的报告,但现有基准主要针对纯文本场景或短格式多模态问答,缺乏端到端的多模态证据运用评估。我们推出MMDeepResearch-Bench(MMDR-Bench)——一个涵盖21个领域140项专家构建任务的基准,每个任务提供图文组合以评估多模态理解与引证支撑的报告生成能力。相较于先前设定,MMDR-Bench强调显式证据驱动的报告式综合,要求模型必须将视觉要素与溯源主张相关联,并保持叙述、引证和视觉参照的一致性。我们进一步提出统一可解释的评估框架:面向报告质量的公式化LLM自适应评估(FLAE)、确保引证与证据对齐的可信检索校准评估(TRACE)、以及检验图文一致性的多模态支持对齐完整性核查(MOSAIC),每个模块均产生细粒度信号,支持超越单一总分的错误诊断。在25个前沿模型上的实验揭示了生成质量、引证规范与多模态 grounding 之间的系统性权衡,表明优质文本生成并不保证证据使用的可信度,且多模态完整性仍是深度研究智能体的关键瓶颈。
撰写有效的反驳意见是一项高难度任务,其要求远不止语言流畅性,更需要精准把握审稿人意图与论文细节之间的对应关系。现有解决方案通常将其视为端到端文本生成问题,存在虚构内容、遗漏批评要点及缺乏可验证依据等缺陷。为突破这些局限,我们提出首个多智能体框架RebuttalAgent,将反驳生成重新定义为以证据为核心的规划任务。该系统将复杂审阅意见分解为原子化问题点,通过融合压缩摘要与高保真原文构建动态混合上下文,同时集成自主按需的外部检索模块以解决需借助外部文献的质疑。通过在起草前生成可审查的响应方案,RebuttalAgent确保每个论点都明确锚定于内部或外部证据。我们在提出的RebuttalBench基准上验证方法,证明本流水线在覆盖度、忠实度与策略连贯性上均优于强基线模型,为同行评审流程提供了透明可控的辅助工具。代码将开源发布。
视频生成模型显著推动了具身智能的发展,为生成融合物理世界感知、推理与行动的多样化机器人数据开辟了新可能。然而,合成能准确反映真实机器人交互的高质量视频仍面临挑战,且缺乏标准化基准限制了公平比较与研究进展。为填补这一空白,我们推出综合性机器人基准RBench,通过五大任务域和四种不同具身形态评估面向机器人的视频生成能力。该基准通过可复现的子指标(包括结构一致性、物理合理性和动作完整性)同时评估任务级准确性与视觉保真度。对25个代表性模型的评估揭示了其在生成物理真实机器人行为方面的显著缺陷。此外,该基准与人类评估的斯皮尔曼相关系数达0.96,验证了其有效性。尽管RBench为识别这些缺陷提供了必要视角,但实现物理真实性需超越评估层面,解决高质量训练数据严重短缺的核心问题。基于这些洞察,我们提出精炼的四阶段数据流水线,由此构建的RoVid-X成为目前最大的开源机器人视频生成数据集,包含400万个标注视频片段,覆盖数千项任务并配有全面物理属性标注。这一评估与数据协同的生态系统为视频模型的严谨评估和规模化训练奠定了坚实基础,将加速具身人工智能向通用智能的演进。
GutenOCR是基于Qwen2.5-VL-3B与Qwen2.5-VL-7B微调得到的系列端到端OCR前端模型。这些单检查点的视觉语言模型通过统一的提示式接口,实现了文本识别、检测与定位功能。该模型基于商业文档、科学文献及合成定位数据训练,支持整页与局部阅读,可输出行级/段落级边界框,并响应条件式"X在哪里?"的查询。我们提出了带定位功能的OCR评估方案,实验表明GutenOCR-7B在1.05万份留存的商业与科学文档上的综合定位OCR得分较其骨干网络Qwen2.5-VL-7B提升超一倍(0.40→0.82)。在Fox与OmniDocBench v1.5基准测试中,本方法显著提升了区域/行级OCR性能及文本检测召回率,但在页面级线性化、色彩引导OCR及公式密集版块处理方面存在权衡。
强化学习(RL)在模型后训练中具有核心地位,尤其对于需要专业推理行为的智能体模型而言。在此背景下,模型融合提供了一种实用机制,可将来自不同任务的多个RL训练智能体整合为单一通用模型。然而,现有融合方法专为监督微调(SFT)设计,在保留RL训练智能体模型的特定任务能力方面存在不足。其根本原因在于RL与SFT之间存在任务向量失配:同策略RL产生的任务向量具有高度稀疏性和异质性,而SFT式融合隐式假设任务向量具备稠密性和全局可比性。当在这种失配情况下应用标准全局平均法时,RL中编码关键任务特定行为的非重叠任务向量会被削弱,参数更新也随之稀释。为解决该问题,我们提出强化智能体融合(RAM)——专为RL训练智能体模型设计的分布感知融合框架。RAM通过解耦共享参数更新与任务特异性独有参数更新,对共享组件进行平均处理,同时选择性保留并重新缩放独有组件以抵消参数更新稀释。跨多个智能体领域和模型架构的实验表明,RAM不仅超越了现有融合基线,更能释放智能体间的协同潜力,实现优于各领域专用智能体的性能表现。
近期端到端语音对话系统利用语音分词器和神经音频编解码器,使大语言模型能够直接处理离散语音表征。然而,这些模型往往存在说话人身份保持能力有限的问题,阻碍了个性化语音交互的发展。本研究推出Chroma 1.0——首个开源的实时端到端语音对话模型,兼具低延迟交互与高保真个性化语音克隆能力。通过支持流式生成的交错式文本-音频令牌调度方案(1:2),Chroma实现了亚秒级端到端延迟,并在多轮对话中保持高质量的个性化语音合成。实验结果表明,Chroma在保持强大推理和对话能力的同时,说话人相似度相较人类基线相对提升10.96%,实时因子(RTF)达0.43。相关代码与模型已开源:https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma 与 https://huggingface.co/FlashLabs/Chroma-4B。
思维链提示技术在解锁大型语言模型推理能力方面取得了显著成功。尽管该技术能增强推理性能,但其冗长的特性带来了巨大的计算开销。现有研究往往仅关注结果对齐,而缺乏对中间推理过程的监督,这种缺陷使得潜在推理链的可分析性变得模糊。为解决这些挑战,我们提出思维渲染框架——首个通过将文本推理步骤可视化呈现为图像来具象化推理链的方法,使潜在逻辑变得显式化且可追溯。具体而言,我们利用现有视觉语言模型中视觉编码器作为语义锚点,将视觉嵌入与文本空间对齐。这种设计确保了即插即用的实现方式,无需额外预训练开销。在数学与逻辑推理基准测试上的大量实验表明,相较于显式思维链方法,我们的方案实现了3-4倍的令牌压缩和显著的推理加速,同时与其他方法相比保持竞争力,验证了该范式的可行性。代码已开源于https://github.com/TencentBAC/RoT。
文档提取是数字化工作流的核心环节,但现有视觉语言模型主要偏向高资源语言。泰语由于非拉丁字母的文字复杂性、缺乏显性词汇边界以及现实文档高度非结构化的特点,面临额外挑战,限制了当前开源模型的有效性。本文提出Typhoon OCR——一个专为泰英双语定制的开源文档提取视觉语言模型。该模型基于视觉语言主干网络,通过聚焦泰语的训练数据集进行微调。该数据集采用结合传统OCR、基于VLM的重构与精心设计的合成数据的多阶段构建流程开发。Typhoon OCR是能够实现文本转录、版式重建和文档级结构一致性的统一框架。最新版本Typhoon OCR V1.5作为紧凑高效的推理模型,旨在减少对元数据的依赖并简化部署。通过对财务报告、政府表格、书籍、信息图及手写文档等多元泰语文档的综合评估表明,Typhoon OCR在显著降低计算成本的同时,达到了与大型前沿专有模型相当或更优的性能。实验结果证明,开源视觉语言OCR模型能够实现泰语文档的精准文本提取与版式重建,在保持轻量级可部署特性的同时达到与专有系统相媲美的性能水平。
诸如Whisper之类的大型编码器-解码器模型虽能实现强大的离线转录能力,但由于高延迟问题,在流式应用中仍不实用。尽管预训练模型易于获取,当前泰语自动语音识别领域仍由这些离线架构主导,导致高效流式解决方案存在关键空白。我们推出Typhoon ASR Real-time——一个115M参数的FastConformer-Transducer模型,专为低延迟泰语语音识别设计。研究表明,严格的文本规范化可达到模型扩增的效果:相比Whisper Large-v3,我们的紧凑模型在保持相当准确度的同时实现了45倍计算成本降低。我们的规范化流程解决了泰语转录中的系统性歧义问题(包括上下文相关的数字口语化处理和重复标记符mai yamok),从而创建了统一的训练目标。我们还提出针对伊森方言(泰国东北部)适配的两阶段课程学习方案,该方案能保持中部泰语的处理性能。为应对泰语ASR的可复现性挑战,我们发布了Typhoon ASR Benchmark——遵循标准泰语语言学规范的人工标注黄金数据集,为研究社区提供标准化评估协议。
近期,智能体系统已成为形式化定理证明的主流范式,通过协调多个模型与工具实现了强劲性能。然而现有方法常依赖特定任务流水线和训练过的形式证明器,限制了灵活性与可复现性。本文提出直接使用通用编程智能体作为形式数学推理器的新范式,其优势在于:(1)通用编程智能体为证明之外的多样化推理任务提供自然接口;(2)仅需替换底层基础模型即可提升性能,无需训练;(3)MCP框架支持灵活扩展并自主调用专用工具,避免复杂设计。基于此范式,我们推出Numina-Lean-Agent,融合Claude Code与Numina-Lean-MCP以实现与Lean的自主交互、相关定理检索、非形式化证明及辅助推理工具调用。以Claude Opus 4.5为基础模型时,Numina-Lean-Agent在Putnam 2025全部12道题目中实现满分解答(12/12),媲美最佳闭源系统。除基准评估外,我们还通过协助数学家成功形式化Brascamp-Lieb定理,进一步验证其泛化能力。Numina-Lean-Agent及全部解题代码已发布于https://github.com/project-numina/numina-lean-agent。
我们提出Motion 3-to-4框架——一种基于单目视频与可选三维参考网格生成高质量四维动态物体的前馈式系统。尽管二维、视频及三维内容生成技术近期取得显著进展,但由于训练数据有限以及单目视角下几何结构与运动重建的固有歧义性,四维合成仍面临挑战。该框架通过将四维合成解耦为静态三维形状生成与运动重建来应对这些难题:基于规范参考网格,模型学习紧凑的运动潜空间表示,并通过逐帧顶点轨迹预测实现完整且时序连贯的几何重建。可扩展的帧间变换器进一步增强了模型对可变序列长度的适应能力。在标准基准与包含精确真实几何的新数据集上的实验表明,Motion 3-to-4相比现有方法具有更优的保真度与空间一致性。项目页面详见https://motion3-to-4.github.io/。
智能体AI正在重新定义检索技术,这要求超越传统基于相似度的范式,实现多模态推理。组合图像检索(CIR) exemplifies 这一变革——每个查询都结合参考图像与文本修改指令,需要跨模态的组合理解能力。虽然基于嵌入的CIR方法已取得进展,但其视角仍显局限,仅能捕捉有限的跨模态线索且缺乏语义推理能力。为突破这些限制,我们提出XR:一个无需训练的多智能体框架,将检索重构为渐进式协同推理过程。该框架协调三类专业智能体:想象智能体通过跨模态生成合成目标表征,相似性智能体通过混合匹配进行粗筛选,提问智能体通过定向推理验证事实一致性以实现精筛选。通过渐进式多智能体协同,XR迭代优化检索结果以满足语义与视觉的双重查询约束,在FashionIQ、CIRR和CIRCO数据集上相较强力的无训练及有训练基线方法最高提升38%性能,消融实验表明各智能体均不可或缺。代码已开源:https://01yzzyu.github.io/xr.github.io/。
我们推出新一代具身智能基础模型RoboBrain 2.5,该模型通过高质量时空监督的大规模训练,实现了通用感知、空间推理与时序建模能力的突破。在前代基础上,RoboBrain 2.5引入两大核心能力升级:其一是通过从二维像素相对定位转向深度感知坐标预测与绝对度量约束理解,解锁了精确三维空间推理能力,可在物理约束下生成完整的三维操作轨迹作为有序关键点序列;其二是建立了稠密时序价值估计机制,通过跨视角的步进感知进度预测与执行状态理解,为下游学习提供稳定的反馈信号。这两项升级共同推动框架向更具物理基础和执行意识的具身智能演进,以应对复杂精细的操作任务。代码与模型权重已发布于项目网站:https://superrobobrain.github.io
基于大语言模型的金融智能体正日益广泛应用于投资分析、风险评估及自动化决策领域。这些智能体具备规划能力、工具调用能力及可变状态操控能力,在高压且强监管的金融环境中引发了新的安全风险。然而现有安全评估主要聚焦于语言模型层面的内容合规性或抽象智能体设定,未能捕捉真实操作流程和状态变更行为所产生的执行层面风险。为弥补这一空白,我们提出首个面向金融智能体的执行安全基准测试框架FinVault,该框架包含31个基于监管案例的沙箱场景(配备可写状态数据库与明确合规约束)、107个现实漏洞及963个测试用例,系统覆盖提示注入、越狱攻击、金融场景适配攻击以及用于误报评估的良性输入。实验结果表明,现有防御机制在真实金融智能体环境中依然存在不足:最先进模型的平均攻击成功率仍高达50.0%,即便对于最稳健的系统(攻击成功率6.7%)风险仍不可忽视,这凸显出现有安全方案的可迁移性有限,亟需构建更强的金融场景专属防御体系。代码已发布于https://github.com/aifinlab/FinVault。
我们发现语言模型存在一种新现象:对前沿模型进行良性微调可能导致隐私崩溃。研究表明,训练数据中多样且微妙的模式会削弱情境隐私保护能力,包括对助人为乐特性的优化、用户信息的暴露、情感化及主观性对话、调试代码时打印内部变量等。经微调的模型会丧失对情境隐私规范的判断力,不适当地向工具共享信息,并跨越情境边界侵犯记忆隐私。这种隐私崩溃属于"静默失效",因为模型在标准安全性和实用性基准测试中仍保持优异表现,却存在严重的隐私漏洞。我们在六种模型(闭源与开源权重)、五类微调数据集(真实场景与受控数据)以及两种任务类型(智能体任务与基于记忆的任务)中均观察到隐私崩溃的证据。机制分析表明,与得以保留的任务相关特征不同,隐私表征对微调过程具有独特的脆弱性。这一发现揭示了当前安全评估体系存在的重大缺陷,尤其在专用智能体的部署方面亟待完善。
图像表征学习模型通常专为识别或生成任务而设计。对比学习的多种形式帮助模型学会将图像转换为适用于分类、检测和分割的嵌入向量;而通过像素级重建、感知损失和对抗性损失训练的模型,则可学习适用于图像生成的潜在空间。我们试图通过首开先河的模型统一这两个方向,使学习到的表征能同时胜任识别与生成任务。该模型以超网络形式实现隐式神经表征,通过学习将图像映射为模型权重来实现快速精准的重建。我们进一步将INR超网络与知识蒸馏相结合,以提升其泛化能力与性能。除创新的训练设计外,该模型还学习到前所未有的压缩嵌入空间,在多种视觉任务中表现卓越。这一完整模型在图像表征学习领域达到领先水平,同时通过高质量微型嵌入实现生成能力。代码已开源:https://github.com/tiktok/huvr。
本研究通过融合智能体级语义推理与快速局部控制,推动了自主机器人探索技术的发展。我们提出FARE——一种分层式自主探索框架,该框架将用于全局推理的大语言模型(LLM)与负责局部决策的强化学习(RL)策略相集成。FARE遵循快慢思维协同范式:慢思维LLM模块解析未知环境的简明文本描述,生成智能体级探索策略,并通过拓扑图将其具象化为全局航点序列;该模块还采用基于模块度的剪枝机制以减少冗余图结构,从而提升推理效率。快思维RL模块则在LLM生成的全局航点引导下,根据局部观测执行探索任务,其策略通过增设遵循全局航点的奖励项进行塑形,确保形成连贯稳健的闭环行为。该架构实现了语义推理与几何决策的解耦,使各模块能在适宜的时空尺度下运作。在具有挑战性的仿真环境中,实验结果表明FARE的探索效率较现有先进基线方法获得显著提升。我们进一步将FARE部署于硬件系统,在200米×130米的大型复杂建筑环境中完成了有效性验证。
许多口语(包括英语)在方言和口音上存在显著差异,这使得口音控制成为灵活文本转语音(TTS)模型的重要能力。当前TTS系统通常通过关联特定口音的说话人嵌入向量来生成带口音的语音。虽然有效,但该方法可解释性和可控性有限,因为嵌入向量同时编码了音色、情感等特征。本研究分析了说话人嵌入向量与基于语言学的音系规则在口音语音合成中的交互作用。以美式与英式英语为案例,我们实现了闪音、卷舌音及元音对应关系的规则集,并提出音素替换率(PSR)这一新颖指标,用于量化嵌入向量保留或覆盖规则转换的强度。实验表明:规则与嵌入向量结合可生成更真实的口音,而嵌入向量会削弱或覆盖规则,揭示出口音与说话人身份之间的纠缠现象。我们的研究凸显了音系规则作为口音控制杠杆的作用,并为评估语音生成解纠缠提供了框架。
大型语言模型在医疗领域已展现出显著的应用价值,然而其在自主电子健康记录(EHR)导航中的应用仍受限于对人工筛选输入的依赖及简化的检索任务。为弥合理想化实验场景与真实临床环境间的差距,我们提出AgentEHR基准测试框架。该框架要求智能体在原始高噪声数据库中进行长程交互推理,执行诊断与治疗方案制定等复杂决策任务。研究发现,现有摘要生成方法在处理此类任务时普遍存在关键信息丢失与推理链断裂问题。为此,我们创新性提出RetroSum框架,将回溯式摘要机制与动态经验策略相融合。回溯机制通过动态重评估交互历史,有效规避长上下文信息损耗并确保逻辑连贯性;而动态经验策略则通过从记忆库中检索累积经验,弥合领域鸿沟。大量实证评估表明,RetroSum在竞争性基线模型基础上实现了最高29.16%的性能提升,同时将总体交互错误率显著降低92.3%。
大型语言模型对提示结构展现出惊人的敏感性,但其内在机制尚未得到充分阐释。本研究聚焦一个典型现象:在多项选择题作答任务中,将语境置于问题和选项之前(CQO)的提示方式,相较逆向排序(QOC)可获得超过14个百分点的性能提升,且该现象在不同模型与数据集间具有普适性。通过系统性架构分析,我们发现因果注意力机制是核心成因:在QOC提示中,因果掩码会阻止选项词元关注语境信息,形成语境对选项不可见的信息瓶颈。
诸如ChatGPT Agent和GenSpark等网络AI代理正日益被用于常规网页任务,但它们仍依赖基于文本的输入提示,缺乏对用户意图的主动感知,且无法支持交互式数据分析和决策。我们推出WebSeek——一款混合主动式浏览器扩展,使用户能够从网页中发现并提取信息,进而在交互式画布中灵活构建、转换和优化具象数据产物(如表格、列表和可视化图表)。在该环境中,用户可执行包括连接表格或创建可视化等数据转换的分析操作,而内置AI既能主动提供情境感知的指导与自动化支持,也能响应用户的显式请求。通过以WebSeek为探针的探索性用户研究(N=15),我们发现参与者多样化的分析策略,凸显了在人机协作过程中他们对透明度和控制权的需求。
现代集成智能体生成代码的CI/CD管道呈现出责任归属的结构性失效。决策通过形式合规的审批流程执行,但没有任何实体同时具备批准决策的权限与实质性理解其依据的认知能力。 我们将这种状态定义为"责任真空":决策持续产生,但由于审批权限与验证能力相互分离,责任无法被有效归属。研究表明这并非流程偏差或技术缺陷,而是决策生成吞吐量超过人类有限验证能力时部署体系固有的结构性特征。 通过分析标准部署假设(包括并行智能体生成、基于CI的验证及个性化人工审批环节),我们识别出特定规模临界点:超越该吞吐量阈值后,验证机制不再作为决策标准,而是被基于代理信号的仪式化审批所取代。在此机制下,个性化责任在结构上已无法实现。 我们进一步揭示了CI放大效应动态:自动化验证覆盖率的提升虽然增加了代理信号密度,却未增强人类认知能力。在固定时间与注意力约束下,这加速了广义上的认知卸载,扩大了形式审批与认知理解之间的鸿沟。因此,额外自动化非但未能缓解反而加剧了责任真空。 结论表明,除非组织重新设计决策边界或将责任从个体决策转向批次/系统级归属,否则责任真空将在规模化智能体部署中持续作为隐性却顽固的失效模式存在。
尽管已有大量研究关注人工智能解释在事实核查等复杂信息检索任务中的决策支持作用,但证据的作用却鲜少被深入探讨。本研究系统调整了面向非专业用户的解释类型、AI预测确定性及系统建议正确性,参与者需对声明和AI预测的可信度进行评估,并可便捷查阅底层证据。研究发现,在所有实验条件下,参与者始终依赖证据来验证AI声明。当提供自然语言解释时,证据使用频率虽有所下降,但若解释存在不足或缺陷,参与者仍会诉诸证据。定性数据显示,尽管实验刻意隐去了来源身份,参与者仍试图推断证据来源的可靠性。研究结果证实,证据是人们评估AI系统信息可靠性的核心要素,与自然语言解释相结合能为决策提供重要支持。当前亟需进一步研究证据的呈现方式及其在实际应用中的交互机制。
Korteweg-de Vries(KdV)方程作为非线性波物理的基础模型,描述了色散展宽与非线形陡化之间的平衡机制,该机制正是孤子产生的物理根源。本文介绍sangkuriang——一个基于Python的开源库,它采用傅里叶伪谱空间离散化结合自适应高阶时间积分法求解该方程。该实现通过即时编译技术提升计算效率,同时保持教学应用的易用性。验证工作涵盖逐级复杂的场景:包括孤立孤子传播、对称双波构型、异幅行波的追赶碰撞以及三体相互作用。在整个模拟过程中监测经典不变量守恒情况,所有测试案例的偏差均保持较小范围。实测孤子速度与基于可积系统特有的幅速关系理论预测高度吻合。结合信息论和递归分析的辅助诊断技术证实,计算解保持了完全可积动力学所预期的规则相空间结构。求解器以标准科学格式输出数据,兼容主流分析工具,并能生成时空波演化的可视化结果。通过在不苛刻的计算资源上实现数值精度与实用性的结合,sangkuriang为非线性波现象的课堂演示和孤子动力学的探索性研究提供了适宜平台。
尽管大语言模型在单语数学推理和常识推理任务中表现出色,但在多语言医疗推理应用中仍不可靠,这阻碍了其在多语言医疗场景中的部署。为解决这一问题,我们首先推出了CUREMED-BENCH——一个高质量的多语言医疗推理数据集,包含具有单一可验证答案的开放式推理查询,涵盖十三种语言(包括阿姆哈拉语、约鲁巴语和斯瓦希里语等使用人数较少的语种)。基于该数据集,我们提出CUREMED框架,该框架采用课程式强化学习策略,通过集成语码转换感知的监督微调和群体相对策略优化,共同提升逻辑准确性与语言稳定性。在十三种语言的测试中,我们的方法始终优于强基线模型且具备良好的扩展性:70亿参数规模下实现85.21%的语言一致性与54.35%的逻辑正确率,320亿参数规模下更达到94.96%的语言一致性与70.04%的逻辑正确率。这些成果为大语言模型实现可靠、公平的多语言医疗推理提供了支撑。代码与数据集已发布于https://cure-med.github.io/。