每日精選AI研究論文及翻譯
推理是支撑推断、问题解决与决策制定的基本认知过程。尽管大型语言模型在封闭环境中展现出强大的推理能力,但在开放动态环境中仍面临挑战。智能体推理通过将大型语言模型重构为能够通过持续交互进行规划、行动与学习的自主智能体,实现了范式转变。本综述从三个互补维度系统梳理智能体推理研究:首先,通过三层架构刻画环境动态性——基础智能体推理建立稳定环境中包括规划、工具使用与搜索在内的核心单智能体能力;自演进智能体推理研究智能体如何通过反馈、记忆与适应优化这些能力;集体多智能体推理将智能延伸至涉及协作、知识共享与共同目标的协同场景。在这些层级中,我们区分了通过结构化编排扩展测试时交互的情境推理,与通过强化学习和监督微调优化行为的训练后推理。我们进一步综述了跨现实应用场景(包括科学、机器人、医疗、自主研究与数学领域)的代表性智能体推理框架与基准测试。本综述将智能体推理方法整合为连接思维与行动的统一路线图,并指出开放性挑战与未来方向,包括个性化、长周期交互、世界建模、可扩展多智能体训练以及现实部署的治理机制。
深度研究智慧體(DRAs)通過多步驟檢索與綜合生成帶有豐富引用的報告,然而現有基準主要針對純文本場景或短格式多模態問答,未能涵蓋端到端的多模態證據運用。我們提出MMDeepResearch-Bench(MMDR-Bench)——一個涵蓋21個領域共140項專家設計任務的基準,每個任務提供圖文組合包以評估多模態理解與引用錨定的報告生成能力。相較既有框架,MMDR-Bench強調需明確使用證據的報告式綜合能力,要求模型必須將視覺構件與來源主張相連結,並在敘事、引用和視覺參照間保持一致性。我們進一步設計了統一且可解釋的評估流程:針對報告質量的Formula-LLM自適應評估(FLAE)、用於引用錨定證據對齊的可信檢索校準評估(TRACE),以及檢驗圖文一致性的多模態支持校準完整性驗證(MOSAIC)。每項評估均產生細粒度信號,可支持超越單一總分的錯誤診斷。在25個前沿模型上的實驗揭示了生成質量、引用規範性與多模態錨定之間的系統性權衡,表明流暢的文本生成並不能保證忠實的證據運用,且多模態完整性仍是深度研究智慧體的關鍵瓶頸。
撰寫有效的反駁意見是一項高風險任務,其要求遠超語言流利度,因為它需要精準對齊審稿人意圖與論文細節。現有解決方案通常將其視為直接文本生成問題,存在幻覺生成、遺漏批評及缺乏可驗證依據等缺陷。為解決這些限制,我們提出首個多智能體框架RebuttalAgent,將反駁意見生成重新定義為以證據為核心的規劃任務。我們的系統將複雜反饋分解為原子化問題點,通過融合壓縮摘要與高保真文本動態構建混合上下文,同時集成自主按需的外部搜索模塊以解決需引用外部文獻的問題。通過在起草前生成可審查的回應方案,RebuttalAgent確保每個論點都明確錨定於內部或外部證據。我們在新建的RebuttalBench上驗證方法,證明本流程在覆蓋率、忠實度與策略連貫性上均優於強基線模型,為同行評審提供透明可控的輔助工具。程式碼將公開釋出。
影片生成模型已顯著推進了具身智能的發展,為生成能捕捉物理世界中感知、推理與行動的多樣化機器人數據開闢了新可能。然而,合成能精準反映真實世界機器人互動的高品質影片仍具挑戰性,且缺乏標準化基準限制了公平比較與研究進展。為解決此問題,我們提出綜合性機器人基準RBench,針對五種任務領域與四種不同機器人本體評估機器人導向的影片生成。該基準透過可重現的子指標(包括結構一致性、物理合理性與動作完整性)同時評估任務層級的正確性與視覺逼真度。對25個代表性模型的評估結果顯示,現有模型在生成物理真實的機器人行為方面存在明顯不足。此外,RBench與人工評估的斯皮爾曼相關係數達0.96,驗證其有效性。儘管RBench提供了發現這些缺陷的必要視角,但要實現物理真實性,需超越評估層面以解決高品質訓練數據嚴重短缺的問題。基於此洞察,我們提出精煉的四階段數據流程,構建出RoVid-X——目前最大的開源機器人影片生成數據集,包含400萬個註解影片片段,涵蓋數千種任務並配備全面的物理屬性標註。此評估與數據協同的生態系統,為影片模型的嚴謹評估與可擴展訓練奠定了堅實基礎,加速具身人工智能向通用智能的演進。
GutenOCR 是基於 Qwen2.5-VL-3B 和 Qwen2.5-VL-7B 微調得來的系列接地光學字元辨識前端模型。這些單一檢查點的視覺語言模型透過統一的提示式介面,實現了閱讀、檢測與定位功能。該模型使用商業文件、科學文獻及合成定位資料進行訓練,支援整頁與局部閱讀,並能提供行級與段落級邊界框,以及條件式「X在哪裡?」的查詢功能。我們提出了一套接地 OCR 評估方案,結果顯示 GutenOCR-7B 在 10.5K 份保留的商業與科學文件上,其綜合接地 OCR 分數較基礎模型 Qwen2.5-VL-7B 提升逾一倍(從 0.40 升至 0.82)。在 Fox 和 OmniDocBench v1.5 基準測試中,本方法顯著提升了區域/行級 OCR 效能與文字檢測召回率,但也在頁面線性化、色彩引導 OCR 及公式密集版式等場景中顯現出效能權衡。
強化學習(RL)在後訓練階段具有核心地位,特別是對於需要專業推理行為的主體模型而言。在此背景下,模型融合提供了一種實用機制,可將來自不同任務的多個RL訓練主體整合為單一通用模型。然而,現有的融合方法專為監督式微調(SFT)設計,在保留RL訓練主體模型的任務專屬能力方面表現欠佳。其根源在於RL與SFT之間的任務向量不匹配:策略式RL產生的任務向量具有高度稀疏性與異質性,而SFT式融合隱含假設任務向量具備稠密性與全局可比性。當在此不匹配條件下應用標準全局平均法時,RL中編碼關鍵任務專屬行為的非重疊任務向量會被削弱,參數更新亦遭稀釋。為解決此問題,我們提出「強化主體融合」(RAM),這是一個專為RL訓練主體模型設計的分布感知融合框架。RAM能分離共享參數更新與任務專屬獨特參數更新,對共享組件進行平均處理的同時,選擇性保留並重新調整獨特組件,以抵消參數更新的稀釋效應。跨越多個主體領域與模型架構的實驗表明,RAM不僅超越現有融合基線,更能釋放主體間的協同潛力,實現優於各領域專屬主體的表現。
近期,端到端语音对话系统通过语音分词器和神经音频编解码器技术,使大语言模型能够直接处理离散语音表征。然而,这些模型往往存在说话人身份保真度不足的问题,制约了个性化语音交互的发展。本研究推出Chroma 1.0——首个开源的实时端到端语音对话模型,在实现低延迟交互的同时兼具高保真个性化语音克隆能力。通过支持流式生成的文本-音频交错令牌调度方案(1:2比例),Chroma实现了亚秒级端到端延迟,并在多轮对话中保持高质量的个性化语音合成。实验结果表明,Chroma的说话人相似度相较人类基线相对提升10.96%,实时因子(RTF)达0.43,同时保持强大的推理与对话能力。相关代码与模型已公开于https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma 与 https://huggingface.co/FlashLabs/Chroma-4B。
思維鏈提示技術在釋放大語言模型的推理能力方面取得了顯著成功。儘管思維鏈提示能增強推理性能,但其冗長的特性帶來了巨大的計算開銷。現有研究往往僅關注結果對齊,缺乏對中間推理過程的監督機制,這些缺陷使得潛在推理鏈的可分析性變得模糊。為解決這些挑戰,我們提出了思維渲染框架——首個通過將文本推理步驟可視化為圖像來具象化推理鏈的架構,使潛在邏輯變得顯性化且可追溯。具體而言,我們利用現有視覺語言模型中視覺編碼器作為語義錨點,將視覺嵌入與文本空間對齊。這種設計確保了即插即用的實現方式,無需額外的預訓練成本。在數學與邏輯推理基準測試上的大量實驗表明,相較於顯性思維鏈,我們的方法能實現3-4倍的標記壓縮和顯著的推理加速,同時與其他方法保持競爭力,驗證了此範式的可行性。相關代碼已開源於:https://github.com/TencentBAC/RoT
文件擷取是數位工作流程的核心環節,然而現有的視覺語言模型主要偏向高資源語言。泰文由於非拉丁字母的文字複雜性、缺乏明確詞邊界,以及現實中高度非結構化文件的普遍存在,使得當前開源模型的效果受限。本文提出Typhoon OCR——一個專為泰文與英文設計的開放式視覺語言文件擷取模型。該模型基於視覺語言基礎架構,透過以泰文為核心的訓練數據集進行微調。該數據集採用多階段建構流程,結合傳統OCR技術、基於VLM的重構方法與精選合成數據。Typhoon OCR作為統一框架,能同時處理文字轉錄、版面重建與文件層級的結構一致性。我們的最新版本Typhoon OCR V1.5是具備推論效率的輕量化模型,旨在降低對元數據的依賴並簡化部署。針對泰文各類文件(含財務報表、政府表格、書籍、資訊圖表與手寫文件)的綜合評估顯示,Typhoon OCR在顯著降低計算成本的同時,達到與大型專有前沿模型相當或更優的效能。實驗結果證實,開放式視覺語言OCR模型能實現泰文文件的精準文字擷取與版面重建,在保持輕量可部署的優勢下,效能可媲美專有系統。
諸如Whisper之類的大型編碼器-解碼器模型雖能實現強大的離線語音轉寫能力,但因高延遲問題在串流應用中仍不具實用性。儘管預訓練模型易於取得,當前泰語自動語音辨識領域仍由這類離線架構主導,導致高效能串流解決方案存在關鍵缺口。我們提出Typhoon ASR Real-time——一款參數量達1.15億的FastConformer-Transducer模型,專為低延遲泰語語音辨識設計。我們證實嚴謹的文本正規化能達到與模型擴充相當的效果:相較Whisper Large-v3,我們的小型模型在保持相近準確度的同時,實現了45倍的運算成本降低。我們的正規化流程解決了泰語轉寫中的系統性歧義問題(包括情境依賴型數字口語化與重複標記「ไม้ยมก」),從而建立一致的訓練目標。此外,我們針對伊森(東北方言)適應性提出兩階段課程學習法,在維持中部泰語辨識效能的同時完成方言遷移。為解決泰語語音辨識的可重現性挑戰,我們發布Typhoon ASR Benchmark黃金標準人工標註資料集,其轉寫內容遵循既定泰語語言學規範,為研究社群提供標準化評估框架。
近期,智能体系统已成为形式化定理证明的主流范式,通过协调多个模型与工具实现了卓越性能。然而现有方法常依赖特定任务流水线和训练过的形式化证明器,限制了灵活性与可复现性。本文提出直接使用通用编程智能体作为形式化数学推理器的新范式,其优势在于:(1)通用编程智能体为证明之外的多样化推理任务提供自然接口;(2)仅需替换底层基础模型即可提升性能,无需训练;(3)MCP框架支持灵活扩展与自主调用专用工具,避免复杂设计。基于此范式,我们推出Numina-Lean-Agent,将Claude Code与Numina-Lean-MCP结合,实现与Lean的自主交互、相关定理检索、非形式化证明及辅助推理工具调用。以Claude Opus 4.5为基础模型时,该系统在普特南数学竞赛2025年试题中实现全解(12/12),媲美最佳闭源系统。除基准评估外,我们通过与数学家互动成功形式化Brascamp-Lieb定理,进一步验证其普适性。Numina-Lean-Agent及全部解题方案已发布于https://github.com/project-numina/numina-lean-agent。
智能体AI正在重新定义检索技术,这要求超越传统基于相似度的范式,实现多模态推理。组合图像检索(CIR) exemplifies 这一变革,其每个查询都结合了参考图像与文本修改指令,需要跨模态的组合理解能力。虽然基于嵌入的CIR方法已取得进展,但其视角仍显局限——仅能捕捉有限的跨模态线索且缺乏语义推理能力。为突破这些限制,我们提出XR框架:一种无需训练的多智能体系统,将检索重构为渐进式协同推理过程。该系统协调三类专业智能体:想象智能体通过跨模态生成合成目标表征,相似性智能体通过混合匹配进行粗筛选,提问智能体通过针对性推理验证事实一致性以实现精筛选。通过渐进式多智能体协作,XR能迭代优化检索结果以满足语义与视觉的双重查询约束,在FashionIQ、CIRR和CIRCO数据集上相较强力的无训练及有训练基线方法提升达38%,消融实验证实各智能体均不可或缺。代码已开源:https://01yzzyu.github.io/xr.github.io/。
基于大语言模型的金融智能体正日益广泛地应用于投资分析、风险评估和自动化决策领域。这些智能体具备规划能力、工具调用能力及可变状态操作能力,但在高风险、强监管的金融环境中,这些能力也带来了新的安全风险。然而,现有安全评估主要聚焦于语言模型层面的内容合规性或抽象智能体场景,未能有效捕捉真实工作流程和状态变更操作中产生的执行层面风险。为弥补这一空白,我们提出首个面向金融智能体的执行安全基准测试框架FinVault,该框架包含31个基于监管案例的沙箱场景(配备可写入状态数据库和明确合规约束)、107种现实漏洞类型及963个测试用例,系统覆盖提示注入、越狱攻击、金融场景适应性攻击以及用于误报评估的良性输入。实验结果表明,现有防御机制在真实金融智能体环境中仍然存在不足:最先进模型的平均攻击成功率高达50.0%,即使对于最稳健的系统,攻击成功率仍保持不可忽视的水平(6.7%),这凸显出现有安全方案的可迁移性有限,亟需构建更强的金融场景专属防御体系。项目代码详见https://github.com/aifinlab/FinVault。
我们推出新一代具身人工智能基础模型RoboBrain 2.5,该模型通过高质量时空监督的大规模训练,实现了通用感知、空间推理与时间建模的突破性进展。在上一代基础上,RoboBrain 2.5带来两大核心能力升级:其一是开启精确三维空间推理能力,通过从二维像素相对定位转向深度感知坐标预测与绝对度量约束理解,在物理约束下生成完整的三维操作轨迹作为有序关键点序列;其二是建立稠密时间价值估计机制,通过跨视角的步进感知进度预测与执行状态理解,为下游学习提供稳定的反馈信号。这两项升级共同推动框架向更具物理基础和执行意识的具身智能演进,以应对复杂精细的操作任务。代码与模型权重已发布于项目网站:https://superrobobrain.github.io
我们发现语言模型存在一种新现象:对前沿模型进行良性微调可能导致隐私崩溃。通过实验研究,我们识别出训练数据中多种微妙模式会削弱情境隐私保护能力,包括对助人性的优化、用户信息的暴露、情感化与主观性对话、调试代码时打印内部变量等。微调后的模型会丧失对情境隐私规范的判断力,不适当地通过工具共享信息,并跨越情境边界违反记忆隔离原则。隐私崩溃属于"静默失效",因为模型在标准安全性和实用性基准测试中仍保持优异表现,却存在严重的隐私漏洞。我们的实验在六种模型(闭源与开源权重)、五种微调数据集(真实场景与受控数据)及两类任务(智能体与基于记忆的任务)中均观察到隐私崩溃证据。机制分析表明,与任务相关特征在微调中得以保留不同,隐私表征具有独特的脆弱性。这些发现揭示了当前安全评估体系存在的重大缺陷,特别是在部署专业化智能体时尤为突出。
我们提出Motion 3-to-4——一种前馈式框架,能够通过单目视频及可选的三维参考网格生成高质量的四维动态物体。尽管二维、视频和三维内容生成技术近期取得显著进展,但由于训练数据有限以及单目视角下几何结构与运动重建的固有模糊性,四维合成仍面临挑战。Motion 3-to-4通过将四维合成解耦为静态三维形状生成与运动重建来解决这些难题。基于规范参考网格,我们的模型学习紧凑的运动潜在表征,并通过预测逐帧顶点轨迹来恢复完整且时序连贯的几何形态。可扩展的帧间变换器进一步提升了模型对可变序列长度的鲁棒性。在标准基准和具有精确真实几何的新数据集上的评估表明,Motion 3-to-4相比现有方法实现了更优的保真度与空间一致性。项目页面详见https://motion3-to-4.github.io/。
许多口语(包括英语)在方言和口音上存在广泛差异,这使得口音控制成为灵活文本转语音(TTS)模型的重要能力。当前TTS系统通常通过关联特定口音的说话人嵌入向量来生成带口音的语音。虽然有效,但这种方法提供的可解释性和可控性有限,因为嵌入向量同时编码了音色、情感等特征。本研究分析了说话人嵌入向量与基于语言学的音系规则在口音语音合成中的交互作用。以美式英语和英式英语为案例,我们实现了闪音、卷舌音及元音对应关系的规则集,并提出音素替换率(PSR)这一新颖指标,用于量化嵌入向量保留或覆盖规则化转换的强度。实验表明:规则与嵌入向量结合可产生更真实的口音,而嵌入向量会削弱或覆盖规则,揭示出口音与说话人身份之间的纠缠现象。我们的研究凸显了音系规则作为口音控制杠杆的作用,并为评估语音生成解纠缠效果提供了框架。
本研究通过融合智能体级语义推理与快速局部控制,推动了自主机器人探索技术的发展。我们提出FARE——一种分层式自主探索框架,该框架将用于全局推理的大语言模型(LLM)与负责局部决策的强化学习(RL)策略相结合。FARE遵循快慢思维协同范式:慢思维LLM模块解析未知环境的简明文本描述,生成智能体级探索策略,并通过拓扑图将其具象化为全局航点序列;该模块还采用基于模块度的剪枝机制以减少冗余图结构,从而提升推理效率。快思维RL模块则在LLM生成的全局航点引导下,根据局部观测执行探索任务,其策略通过奖励项强化对全局航点的遵循,实现连贯稳健的闭环行为。该架构将语义推理与几何决策解耦,使各模块在适宜的时空尺度下运作。在具有挑战性的仿真环境中,实验结果表明FARE的探索效率相较现有最优基线方法实现显著提升。我们进一步将FARE部署于硬件平台,在200米×130米的大型复杂建筑环境中验证了其有效性。
大型语言模型在医疗领域已展现出深远应用价值,然而其在自主电子健康记录导航方面的应用仍受限于对人工筛选输入的依赖及简化检索任务。为弥合理想化实验场景与真实临床环境之间的差距,我们提出AgentEHR基准测试框架。该框架要求智能体在原始高噪声数据库中执行诊断与治疗方案制定等复杂决策任务,需进行长程交互推理。在应对这些任务时,我们发现现有摘要方法必然面临关键信息丢失与推理连续性断裂的局限。为此,我们提出RetroSum创新框架,将回溯摘要机制与动态经验策略相融合。通过动态重估交互历史,回溯机制可防止长上下文信息丢失并确保逻辑连贯性。同时,动态经验策略通过从记忆库检索累积经验来弥合领域差距。大量实证评估表明,RetroSum相较基线模型最高可实现29.16%的性能提升,同时将总体交互错误率显著降低92.3%。
图像表征学习模型通常专为识别或生成任务而设计。对比学习的多种形式帮助模型学会将图像转换为适用于分类、检测和分割任务的嵌入向量;而通过结合像素级、感知和对抗性损失训练模型进行图像重建,则可学习适用于图像生成的潜在空间。我们试图通过首开先河的模型统一这两个方向,使学习到的表征能同时适用于识别与生成任务。我们将模型训练为隐式神经表征的超网络,使其学会将图像映射为模型权重,从而实现快速精准的重建。我们进一步将INR超网络与知识蒸馏相结合,以提升其泛化能力与性能。除创新的训练设计外,该模型还学习了前所未有的压缩嵌入空间,在各种视觉任务中表现卓越。该完整模型在图像表征学习领域达到业界领先水平,同时通过高质量微型嵌入实现生成能力。代码已开源:https://github.com/tiktok/huvr。
大型语言模型对提示结构展现出惊人的敏感性,但其内在机制尚未得到充分理解。本研究针对一个典型案例展开深入探讨:在多项选择题回答任务中,将语境置于问题和选项之前的排列方式(CQO)相较逆向排列(QOC)能持续产生超过14个百分点的性能提升,这一现象在不同模型与数据集间具有普适性。通过系统性架构分析,我们发现因果注意力机制是核心成因:在QOC提示中,因果掩码会阻止选项词元关注语境信息,形成语境对选项不可见的信息瓶颈。
现代集成智能体生成代码的CI/CD管道存在责任归属的结构性失效。决策通过形式合规的审批流程执行,却没有任何实体同时具备批准这些决策的权限与理解其决策依据的认知能力。 我们将这种状态定义为"责任真空":决策持续产生,但由于审批权限与验证能力相互分离,导致责任无法有效归属。研究表明,这并非流程偏差或技术缺陷,而是当决策生成吞吐量超过人类有限验证能力时,部署系统固有的结构性特征。 通过分析标准部署假设(包括并行智能体生成、基于CI的验证机制和个性化人工审批环节),我们识别出一个临界吞吐量阈值。超越该阈值后,验证机制不再发挥决策筛选功能,转而依赖代理信号形成仪式化审批。在此机制下,个性化责任归属在结构上已无法实现。 研究进一步揭示了CI放大效应动态:自动化验证覆盖率的提升虽然增加了代理信号密度,却未增强人类认知能力。在固定的时间与注意力约束下,这加速了广义上的认知卸载,扩大了形式审批与认知理解之间的鸿沟。因此,额外自动化非但不能缓解责任真空,反而会加剧这一现象。 我们得出结论:除非组织重新设计决策边界,或将责任从个体决策转向批次/系统级归属,否则责任真空将持续成为规模化智能体部署中隐形却顽固的失效模式。
诸如ChatGPT Agent和GenSpark等网络AI代理正日益被用于常规网页任务,但它们仍依赖基于文本的输入提示,缺乏对用户意图的主动检测,且无法支持交互式数据分析和决策。我们推出WebSeek——一种混合主动式浏览器扩展,使用户能够从网页中发现并提取信息,进而在交互式画布中灵活构建、转换和优化具象数据产物(如表格、列表和可视化图表)。在该环境中,用户可执行包括连接表格或创建可视化等数据转换在内的分析操作,而内置AI既能主动提供情境感知的指导与自动化支持,也能响应用户的显式请求。一项以WebSeek为探针的探索性用户研究(N=15)揭示了参与者多样化的分析策略,凸显了他们在人机协作过程中对透明度和控制权的需求。
Korteweg-de Vries(KdV)方程作为非线性波物理的基础模型,描述了色散展宽与非线形陡化之间的平衡机制,这种平衡正是孤子产生的物理根源。本文介绍sangkuriang——一个基于Python的开源程序库,它采用傅里叶伪谱空间离散化结合自适应高阶时间积分法来求解该方程。该实现通过即时编译技术提升计算效率,同时保持教学场景下的易用性。验证工作涵盖逐级复杂的场景:包括孤立孤子传播、对称双波构型、异幅波间的超越碰撞以及三体相互作用。在整个模拟过程中持续监测经典不变量守恒情况,所有测试案例的偏差值均保持较小幅度。实测孤子速度与基于可积系统特有的振幅-速度关系所得理论预测高度吻合。结合信息论和递归分析的双重诊断证实,计算解保持了完全可积动力学预期的规则相空间结构。求解器以标准科学数据格式输出结果,兼容常用分析工具,并能生成时空波演化的可视化图像。sangkuriang在有限计算资源上兼具数值精度与实践易用性,为非线性波现象的课堂演示和孤子动力学的探索性研究提供了适恰的平台。
尽管已有大量研究聚焦于人工智能解释在事实核查等复杂信息检索任务中的决策支持作用,但证据的作用却鲜少受到关注。本研究系统调整了面向非专业参与者的解释类型、AI预测确定性及系统建议的正确性,要求参与者评估陈述与AI系统预测的真实性。实验设置了便于参与者随时查阅底层证据的选项。研究发现,在所有实验条件下,参与者始终依赖证据来验证AI声明。当提供自然语言解释时,证据使用频率虽有所下降,但当解释显得不足或有缺陷时参与者仍会诉诸证据。定性数据显示,尽管实验刻意隐去了来源身份,参与者仍试图推断证据源的可靠性。研究结果证实,证据是人们评估AI系统信息可靠性的关键要素,与自然语言解释相结合能为决策提供重要支持。当前亟需进一步研究证据的呈现方式及人们在实践中如何运用证据。
尽管大型语言模型在单语数学推理和常识推理方面表现出色,但在多语言医疗推理应用中仍不可靠,这阻碍了其在多语言医疗场景中的部署。为解决这一问题,我们首先推出CUREMED-BENCH——一个高质量的多语言医疗推理数据集,包含具有单一可验证答案的开放式推理查询,涵盖十三种语言(包括阿姆哈拉语、约鲁巴语和斯瓦希里语等使用人数较少的语言)。基于该数据集,我们提出CUREMED框架,这是一种融入课程学习理念的强化学习框架,通过整合语码转换感知的监督微调和群体相对策略优化,共同提升逻辑正确性与语言稳定性。在十三种语言的测试中,我们的方法始终优于强基线模型且具备良好扩展性:在70亿参数规模下实现85.21%的语言一致性与54.35%的逻辑正确率,在320亿参数规模下达到94.96%的语言一致性与70.04%的逻辑正确率。这些成果为大型语言模型实现可靠且公平的多语言医疗推理提供了支持。代码与数据集详见https://cure-med.github.io/。