每日精選AI研究論文及翻譯
我們推出Being-H0.5——一個專為跨機器人平台實現強健跨具身泛化而設計的基礎視覺-語言-動作模型。針對現有VLA模型常面臨形態異構性與數據稀缺的挑戰,我們提出以人為本的學習範式,將人類互動軌跡視為物理交互的通用「母語」。為支持此範式,我們發布迄今最大的具身預訓練方案UniHand-2.0,整合30種不同機器人具身形態的逾3.5萬小時多模態數據。該方案首創統一動作空間,將異構機器人控制映射至語義對齊的槽位,使低資源機器人能從人類數據與高資源平台引導技能。基於此以人為本框架,我們設計統一的序列建模與多任務預訓練範式,橋接人類示範與機器人執行。架構上,Being-H0.5採用混合專家變換器設計,創新性地通過混合流框架解耦共享運動基元與專用具身專家。最後,為確保跨具身策略在現實環境中的穩定性,我們引入流形保持門控機制以應對感知偏移,並提出通用異步分塊技術,使分塊控制能適應不同延遲與控制特性的具身平台。實證研究表明,Being-H0.5在LIBERO(98.9%)和RoboCasa(53.9%)等仿真基準測試中達到最先進水平,同時在五類機器人平台上展現出強大的跨具身泛化能力。
問題修復作為軟體工程中一項複雜的現實開發任務,已成為人工智慧領域備受關注的挑戰。SWE-bench等基準測試的建立表明,該任務對大型語言模型而言極具難度,這顯著加速了自主編碼代理的發展進程。本文針對這一新興領域展開系統性綜述:首先剖析數據建構流程,涵蓋自動化收集與合成方法;繼而全面分析技術方法,從具備模組化組件的免訓練框架,到基於訓練的技術(包括監督式微調與強化學習);接著探討數據質量與代理行為的關鍵分析,並結合實際應用場景展開討論;最後指出核心挑戰並勾勒未來研究的潛在方向。為持續推動該領域發展,我們在https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution維護開源資源庫作為動態知識樞紐。
近年來,將大型語言模型擴展為智能體系統的研究日益受到關注。儘管智能體的效能持續提升,但對實際部署至關重要的效率問題卻常被忽視。本文因此從智能體的三個核心組件——記憶、工具學習與規劃——切入探討效率議題,並考量延遲、標記數、步驟數等成本因素。為對智能體系統本身的效率進行全面性研究,我們回顧了大量近期研究方法:這些方法在實作層面雖有差異,卻常遵循共同的高階原則(包括但不限於透過壓縮與管理來限制上下文、設計強化學習獎勵以最小化工具調用、採用受控搜索機制提升效率),本文將對此展開詳細討論。據此,我們以兩種互補方式界定效率:在固定成本預算下比較效能,以及在相當效能水平下比較成本。此權衡關係亦可透過效能與成本間的帕雷托前沿來觀察。基於此視角,我們透過彙整這些組件的評估流程,並統整基準測試與方法論研究中常見的效率指標,進一步檢視以效率為導向的基準測試。此外,我們探討關鍵挑戰與未來方向,以期提供具前瞻性的見解。
理解與推理物理世界需要空間智能:即超越二維感知、解讀幾何結構、透視關係與空間聯繫的能力。儘管近期視覺大模型在視覺理解方面表現卓越,但其本質仍是二維感知器,難以實現真正的三維推理。我們提出Think3D框架,使視覺大模型代理能夠以三維空間進行思考。該框架通過利用從圖像或視頻中恢復點雲與相機姿態的三維重建模型,讓代理能夠基於相機操作及第一人稱/全局視角切換來主動操控空間,將空間推理轉化為互動式的三維思維鏈過程。無需額外訓練,Think3D即可顯著提升GPT-4.1、Gemini 2.5 Pro等先進模型的空間推理性能,在BLINK Multi-view和MindCube數據集上平均提升7.8%,在VSI-Bench上提升4.7%。我們進一步發現,對於空間探索能力較弱的小型模型,通過強化學習策略選擇信息豐富的視角與操作可帶來顯著增益:結合強化學習後,工具使用帶來的效益從0.7%提升至6.8%。研究表明,無需訓練的工具增強型空間探索是一條可行路徑,能推動多模態代理實現更靈活、類人的三維推理,從而開拓多模態智能的新維度。代碼與權重已開源於https://github.com/zhangzaibin/spagent。
機械可解釋性(MI)已成為闡明大型語言模型(LLM)不透明決策機制的關鍵路徑。然而,現有綜述多將MI視為觀測性科學,側重於歸納分析性見解,卻缺乏可操作性干預的系統性框架。為彌合此鴻溝,我們提出以「定位、導向、改進」流程為架構的實用性綜述。基於特定可解釋對象,我們正式將定位(診斷)與導向(干預)方法進行分類,以建立嚴謹的干預規範。進一步地,我們展示此框架如何實現對齊性、能力與效率的實質提升,從而將MI有效轉化為模型優化的可操作方法。本論文精選文獻清單詳見:https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey。
影片能同時捕捉空間與時間動態,相較於圖像或文字能傳達更豐富的資訊。然而現有多數影片自訂方法依賴參考圖像或任務特定的時間先驗,未能充分利用影片內在的豐富時空資訊,從而限制了影片生成的靈活性與泛化能力。為解決這些局限,我們提出OmniTransfer——一個統一的時空影片遷移框架。該框架透過跨影格的多視角資訊增強外觀一致性,並利用時間線索實現細粒度時間控制。為統一各類影片遷移任務,OmniTransfer包含三項關鍵設計:任務感知位置偏置機制,自適應利用參考影片資訊以提升時間對齊度或外觀一致性;參考解耦因果學習,分離參考與目標分支以實現精準參考遷移並提升效率;任務自適應多模態對齊,運用多模態語義引導動態區分與處理不同任務。大量實驗表明,OmniTransfer在外觀遷移(身份與風格)與時間遷移(鏡頭運動與視覺特效)方面均優於現有方法,同時在未使用姿勢引導的情況下,於動作遷移任務中達到與姿勢引導方法相當的效果,為靈活且高保真的影片生成建立了新範式。
儘管多模態大型語言模型(MLLMs)展現出強大的全模態感知能力,但其基於視聽線索預測未來事件的能力仍鮮有探索,現有基準主要聚焦於回顧性理解。為彌合此差距,我們推出首個專注於評估視聽環境中全模態未來預測的基準FutureOmni。被評估模型需進行跨模態因果與時序推理,並有效利用內部知識來預測未來事件。FutureOmni通過可擴展的大型語言模型輔助、人機協同流程構建,涵蓋8個主要領域的919個影片與1,034組多選問答對。對13個全模態模型與7個純視訊模型的評估顯示,當前系統在視聽未來預測(尤其是語音密集型場景)表現欠佳,最佳準確率僅64.8%(由Gemini 3 Flash達成)。為突破此限制,我們策劃了包含7K樣本的指令微調資料集,並提出全模態未來預測(OFF)訓練策略。在FutureOmni及主流視聽/純視訊基準上的測試表明,OFF能有效提升未來預測能力與泛化性能。我們公開釋出所有程式碼(https://github.com/OpenMOSS/FutureOmni)與資料集(https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni)。
現有研究日益傾向採用記憶中心機制,以分段方式處理長上下文,而有效的記憶管理正是促使大型語言模型在整個序列中有效傳播信息的關鍵能力之一。因此,利用獎勵模型來自動且可靠地評估記憶品質至關重要。本研究提出首個系統性探討獎勵模型評估長程記憶管理能力的基準測試框架MemoryRewardBench,該框架涵蓋長上下文理解與長文本生成兩類任務,包含10種具有不同記憶管理模式的情境設定,上下文長度範圍橫跨8K至128K個詞元。對13個前沿獎勵模型的評估結果顯示,開源模型與專有模型之間的性能差距正逐漸縮小,且新一代模型無論參數規模大小均持續優於前代模型。我們進一步揭示了當前獎勵模型在評估不同情境下LLM記憶管理時的能力與根本性局限。
我们推出LightOnOCR-2-1B——这是一个拥有10亿参数的多模态端到端多语言模型,能够直接将文档图像(如PDF)转换为整洁、自然排序的文本,无需依赖脆弱的OCR流程。该模型通过大规模高质量蒸馏训练数据(全面覆盖扫描文档、法语文档和科学类PDF)进行训练,在OlmOCR-Bench基准测试中达到最先进性能,其模型体积比先前最佳性能模型缩小9倍且推理速度显著提升。我们进一步扩展输出格式以预测嵌入式图像的归一化边界框,通过恢复策略在预训练阶段引入定位能力,并采用基于交并比奖励的强化学习视觉推理进行优化。最后,通过检查点平均和任务算术融合技术增强模型鲁棒性。本模型检查点基于Apache 2.0协议开源,相关数据集及LightOnOCR-bbox-bench评估基准将依据各自许可协议公开释放。
在视觉与语言导航任务中实现人类水平性能,要求具身智能体能够同时理解多模态指令与视觉空间语境,并对长动作序列进行推理。近期研究如NavCoT与NavGPT-2证明了思维链推理在提升可解释性与长程规划能力方面的潜力。此外,OctoNav-R1与CoT-VLA等多模态扩展进一步验证了思维链作为实现类人导航推理的有效路径。然而现有方法存在明显缺陷:纯文本思维链缺乏空间锚定且易过拟合稀疏标注的推理步骤,而多模态思维链因生成想象视觉观察导致标记激增,难以实现实时导航。本文提出FantasyVLN——一种保留思维链推理优势且无显式标记开销的统一隐式推理框架。具体而言,在思维链推理训练中,通过预训练视觉自回归模型将想象视觉标记编码至紧凑的潜在空间,模型在统一多思维链策略下联合学习文本、视觉及多模态推理模式。在推理阶段,模型直接实现指令到动作的映射,同时保持推理感知的表征能力。在LH-VLN数据集上的大量实验表明,本方法实现了兼具推理感知与实时性的导航,较显式思维链方法在提升成功率与效率的同时,将推理延迟降低了一个数量级。
近期,智能体搜索(Agentic Search)作为一种新兴的强大范式崭露头角,其通过智能体将多步推理与按需检索相结合来解决复杂问题。尽管该范式已取得显著成效,但如何为其设计专用检索器仍缺乏深入探索。现有搜索智能体通常依赖基于相似度的检索器,然而相似文本片段对最终答案生成并非总是有效。本文提出了一种专为智能体搜索设计的新型检索器训练框架。与单轮检索增强生成(RAG)中仅依赖局部段落效用的检索器不同,我们提出通过局部查询-段落相关性和全局答案正确性来共同衡量多轮智能体搜索中的段落效用。此外,我们引入了一种迭代训练策略,使搜索智能体与检索器能够进行双向迭代优化。相较于仅使用固定问题单次训练的RAG检索器,我们的方法能利用智能体动态生成的高质量查询持续优化检索器。在七个单跳与多跳问答基准数据集上的大量实验表明,我们提出的检索器(命名为)在不同搜索智能体中均能稳定超越现有强基线模型。代码已开源:https://github.com/8421BCD/Agentic-R。
儘管近期取得進展,醫學基礎模型在統一視覺理解與生成任務方面仍面臨挑戰,因為這兩項任務存在本質目標衝突:語義抽象與像素級重建。現有方法通常基於參數共享的自回歸架構,往往導致其中一項或兩項任務的性能受損。為解決此問題,我們提出新一代統一醫學基礎模型UniX,用於胸部X射線的理解與生成。UniX將兩項任務解耦為自回歸分支負責理解任務,擴散分支實現高保真生成。關鍵在於引入跨模態自注意力機制,能動態利用理解特徵引導生成過程。結合嚴謹的數據清洗流程與多階段訓練策略,該架構在充分發揮擴散模型生成優勢的同時,實現任務間的協同合作。在兩個代表性基準測試中,UniX僅使用LLM-CXR四分之一參數量,即實現理解性能(Micro-F1)提升46.1%,生成質量(FD-RadDino)提高24.2%。通過達到與專用模型相當的性能,本研究為協同醫學影像理解與生成建立了可擴展範式。程式碼與模型已開源於:https://github.com/ZrH42/UniX。
獎勵引導的搜尋方法已展現出增強工具使用智能體的強大潛力,其透過在複雜動作空間中有效引導取樣與探索來實現。作為核心設計,這些搜尋方法利用過程獎勵模型提供步驟層級的獎勵,從而實現更細粒度的監控。然而,目前在工具使用場景中仍缺乏系統性且可靠的PRM評估基準。本文提出ToolPRMBench——一個專為評估工具使用智能體的PRM而設計的大規模基準測試平台。該基準基於多個代表性工具使用測試集構建,將智能體軌跡轉換為步驟層級的測試案例。每個案例包含互動歷程、正確動作、合理但不正確的替代動作,以及相關工具元數據。我們分別採用離線取樣來隔離局部單步錯誤,並透過線上取樣捕捉完整智能體推演中的真實多步失誤。同時提出多LLM驗證流程以降低標籤噪聲並確保數據質量。我們在ToolPRMBench上對大型語言模型、通用PRM及工具專用PRM進行廣泛實驗,結果清晰揭示了不同PRM的效能差異,並凸顯出專用PRM在工具使用領域的潛力。程式碼與數據將發佈於https://github.com/David-Li0406/ToolPRMBench。
当前大型语言模型存在关键的模式脱节:它们拥有海量语义知识,却缺乏对物理世界恒定法则的程序性认知。因此,尽管这些智能体隐式地充当着世界模型,其模拟过程常出现物理幻觉——生成逻辑合理但物理上不可执行的计划。现有对齐策略主要依赖资源密集型的训练或微调,试图将动态环境规则压缩为静态模型参数。然而这种参数化封装具有固有刚性,难以适应物理动态的开放可变性而无需持续昂贵的再训练。为弥补这一鸿沟,我们提出WorldMind框架,通过综合环境反馈自主构建符号化世界知识库。具体而言,它统一了通过预测误差强化物理可行性的过程经验,以及借助成功轨迹引导任务最优化的目标经验。在EB-ALFRED和EB-Habitat上的实验表明,WorldMind在跨模型、跨环境可迁移性方面显著优于基线方法。
基於大型語言模型的自我博弈已成為實現自我改進人工智能的潛力範式。然而現有自我博弈框架常因兩大問題導致優化不穩定:(1)問句生成模組因依賴求解器反饋而產生的目標非平穩性;(2)求解器使用自生成偽標籤導致的自舉誤差。為解決這些挑戰,我們提出解耦非對稱推理課程(DARC),該兩階段框架通過以下方式穩定自我演化進程:首先訓練問句生成模組根據顯式難度分級與外部語料生成難度可校準的問題,隨後採用非對稱自蒸餾機制訓練求解器——具備文獻增強能力的教師模型生成高質量偽標籤,用以監督無文獻訪問權限的學生求解器。實證結果表明DARC具備模型無關性,在九項推理基準測試與三種骨幹模型中平均提升10.9個性能點。此外,DARC始終優於所有基準模型,且無需人工標註即可逼近全監督模型性能。代碼已開源於https://github.com/RUCBM/DARC。
当前生产级大型语言模型系统通常依赖独立模型处理安全检测及其他分类密集型任务,这会导致延迟增加、显存占用扩大及运维复杂度提升。我们提出通过复用服务模型已完成的计算来优化这一流程:基于其隐藏状态训练轻量级探测头,在生成所用的同一次前向传播中完成标签预测。我们将分类任务重新定义为对完整词元-层级隐藏状态张量的表征选择,而非固定采用特定词元(如首词元逻辑值)或特定层级(如末层池化)。为此设计了两阶段聚合器:(i)在每层内部进行词元摘要,(ii)跨层级聚合摘要信息形成单一分类表征。我们通过直接池化法、10万参数规模的评分注意力门控机制,以及最高可训练参数达3500万的降维多头自注意力探测头来实现该框架。在安全检测与情感分析基准测试中,我们的探测头相较于仅复用逻辑值的方法(如MULI)表现更优,并与参数量显著更大的专用基线模型竞争力相当,同时保持了接近服务原型的延迟水平,避免了独立防护模型流水线带来的显存与延迟开销。
基于概念的解释方法能够量化高层概念(如性别或经验)对模型行为的影响程度,这对高风险领域的决策者至关重要。近期研究通过将此类解释与基于反事实估计的参考因果效应进行比较,来评估解释的忠实度。实践中,现有基准依赖成本高昂的人工编写反事实作为不完善的代理指标。为此,我们提出了构建包含结构性反事实对的数据集框架:LIBERTy(基于LLM的可解释性干预基准参考目标)。该框架以明确定义的文本生成结构化因果模型为基础,对概念的干预会通过SCM传播,直至LLM生成反事实文本。我们发布了三个数据集(疾病检测、简历筛选和工作场所暴力预测)及新型评估指标"顺序忠实度"。通过在这些数据集上评估五大模型的多种方法,我们发现基于概念的解释方法存在显著改进空间。LIBERTy还能系统分析模型对干预的敏感性:研究发现,由于后训练缓解措施,专有LLM对人口统计概念的敏感性明显降低。总体而言,LIBERTy为开发忠实可靠的可解释性方法提供了亟需的基准平台。
基于像素的强化学习智能体在纯粹视觉分布偏移下经常失效,即使潜在动态和奖励机制保持不变。然而现有基准测试往往混杂多种偏移源,阻碍了系统性分析。我们推出KAGE-Env——一个基于JAX的2D平台游戏环境,其将观测过程分解为可独立控制的视觉维度,同时保持底层控制问题不变。通过架构设计,改变视觉维度仅会通过像素策略引发的状态条件动作分布来影响性能,为视觉泛化提供了清晰的抽象框架。基于该环境,我们构建了KAGE-Bench基准测试,包含6个已知维度套件、34组训练-评估配置对,可分离特定视觉偏移的影响。采用标准PPO-CNN基线测试时,我们观察到显著的维度相关失效现象:背景和光度偏移常导致任务完全失败,而智能体外观偏移的影响相对较小。某些偏移在保持前进运动的同时破坏任务完成度,表明仅凭回报值可能掩盖泛化失败。该全向量化JAX实现在单GPU上可达每秒3300万环境步数,支持对视觉因素进行快速可复现的扫描研究。代码地址:https://avanturist322.github.io/KAGEBench/。
长链思维轨迹(CoT)为从教师大语言模型向学生模型蒸馏推理能力提供了丰富的监督信号。然而,先前研究及我们的实验均表明,来自更强教师的轨迹未必能培养出更优秀的学生模型,这凸显了数据-学生适配性在蒸馏过程中的重要性。现有方法主要通过学生似然度评估适配性,倾向于选择与模型当前行为高度契合的轨迹,却忽略了信息量更丰富的样本。针对此问题,我们提出排序-惊异比(RSR)这一简洁指标,它能同时捕捉对齐度和信息量,从而全面评估推理轨迹的适配性。RSR的提出基于关键发现:有效轨迹通常兼具较低绝对概率与学生模型下相对较高的词元排序,由此平衡学习信号强度与行为对齐度。具体而言,RSR定义为轨迹的平均词元排序与平均负对数似然之比,具有计算直观、解释性强的特点。在五个学生模型与来自11个不同教师的推理轨迹上的实验表明,RSR与训练后性能呈强相关性(平均斯皮尔曼系数0.86),显著优于现有指标。我们进一步验证了其在轨迹选择和教师选择两个场景中的实用价值。
音素识别(PR)作为跨语言语音处理和音系分析的语言无关建模基础接口。尽管音素识别系统的研发历经长期努力,当前评估仅衡量表层转写准确度。我们推出PRiSM——首个通过音素识别系统内在与外在评估揭示音系感知盲点的开源基准。该基准标准化了基于转写的评估体系,并通过转写与表征探针评估临床、教育及多语场景的下游效用。研究发现:训练过程中的多语言接触是提升音素识别性能的关键,编码器-CTC模型具有最佳稳定性,专业音素识别模型仍优于大型音频语言模型。PRiSM开源代码、训练方案及数据集,推动领域向具备强健音系能力的多语言语音模型发展:https://github.com/changelinglab/prism。
结果奖励型强化学习(RL)已被证明能有效提升大语言模型(LLMs)的推理能力。然而,传统RL仅对最终答案进行信用分配:若结果错误则惩罚整个推理轨迹,若结果正确则统一强化所有步骤。这导致错误轨迹中的正确中间步骤可能被抑制,而成功轨迹中的无效步骤反而被强化。我们将这种失效模式称为信用分配问题。虽然训练过程奖励模型是自然解决方案,但精准优化此类模型以识别纠错性推理步骤仍具挑战性。本文提出干预训练(InT),该训练范式使模型通过提出简短、定向的修正方案来自主完成推理轨迹的细粒度信用分配,从而将轨迹导向更高奖励。利用数学推理数据集中普遍存在的参考答案,并基于“验证模型生成解比从头生成正确解更容易”这一事实,模型首先识别推理过程中的首个错误,随后提出单步干预以将轨迹导向正确解。我们接着对错误发生前的策略轨迹与干预步骤进行监督微调(SFT),从而将错误定位至导致失败的具体步骤。实验表明,由此获得的模型可作为更优越的RL训练初始化基础。经过InT及后续RL微调后,我们在IMO-AnswerBench上将4B参数基础模型的准确率提升近14%,表现优于gpt-oss-20b等更大规模的开源模型。
我们提出一种面向低资源语言的大规模语义关系数据集生成混合方法,并以土耳其语语义关系语料库为例进行验证。该方法整合了三个阶段:(1) 采用FastText词嵌入与凝聚层次聚类识别语义簇;(2)利用Gemini 2.5-Flash进行自动化语义关系分类;(3)融合精编词典资源。最终数据集包含84.3万个土耳其语唯一语义对,涵盖三种关系类型(同义、反义、共类义),规模达到现有资源的10倍且成本极低(65美元)。我们通过两项下游任务验证数据质量:词嵌入模型实现90%的Top-1检索准确率,分类模型获得90%的宏观F1分数。这套可扩展方案有效缓解了土耳其语自然语言处理面临的数据稀缺问题,并证明可推广至其他低资源语言。我们公开释放数据集与相关模型。
神经嵌入模型存在一个显著的盲区:无法可靠区分同义词与反义词。这导致提高相似度阈值往往难以阻止反义词被错误归类。我们构建了一个大规模语义聚类系统,专门针对这一核心问题展开攻坚。该处理流程可处理1500万个词汇单元,评估高达5.2亿组潜在语义关系,最终生成290万个高精度语义聚类簇。 本系统主要实现三大突破:首先,我们通过Gemini 2.5-Flash大语言模型增强技术,结合人工校勘的词典资源,构建了包含84.3万组概念对的标注数据集,涵盖同义、反义及上下义关系。其次,我们提出专有的三元语义关系判别器,其宏观F1值达90%,实现了超越原始嵌入相似度的强健语义消歧能力。第三,我们创新性地采用软聚类到硬聚类的渐进算法,既有效抑制语义漂移(避免出现"炎热→辛辣→疼痛→抑郁"类错误传递链),又同步解决一词多义问题。该算法通过拓扑感知的双阶段扩展-剪枝流程配合拓扑投票机制,确保每个术语都能被精确划分至唯一语义连贯的聚类簇。 最终构建的语义资源能够支持高精度语义搜索与检索增强生成,尤其适用于形态复杂和低资源语言——这类语言的现有同义词数据库往往覆盖不足。
随着大型语言模型(LLM)在日益不透明的语料库上接受训练,尽管在实际条件下其可靠性备受质疑,研究者仍提出成员推理攻击(MIA)来审计训练过程中是否使用了受版权保护的文本。本文探讨在对抗性版权纠纷中,当被指控的模型开发者可能对训练数据进行语义保留的模糊化处理时,MIA能否作为可采信证据,并通过法官-公诉人-被告的通信协议将这一场景形式化。为检验该协议下的鲁棒性,我们提出SAGE(结构感知的稀疏自编码器引导提取框架),该框架基于稀疏自编码器(SAE)引导的释义方法,能在保留语义内容与下游效用的前提下重写训练数据的词汇结构。实验表明,当模型在SAGE生成的释义文本上进行微调时,最先进的MIA效果显著下降,这显示其信号对语义保持的转换缺乏鲁棒性。尽管在某些微调机制中仍存在部分信息泄漏,但这些结果表明MIA在对抗性环境中具有脆弱性,无法单独作为LLM版权审计的独立机制。
我们推出SciCoQA数据集,用于检测科学论文与其代码库之间的差异以确保实现过程的忠实性。该数据集基于GitHub议题和可复现性论文构建,并提出一种合成数据生成方法以规模化构建论文-代码差异样本。我们详细分析了论文与代码间的差异类型,提出差异分类体系以深入理解不匹配现象。该数据集共包含611个论文-代码差异实例(81个真实案例,530个合成案例),涵盖人工智能、物理学、定量生物学等多元计算科学领域。我们对21个大语言模型的评估表明,SciCoQA任务具有较高挑战性——尤其当涉及论文细节遗漏、长上下文输入及预训练语料外数据时表现明显。评估中表现最佳的GPT-5模型仅能检测出45.7%的真实世界论文-代码差异。
差分隐私随机梯度下降(DP-SGD)是私有训练的主流范式,但对其在最坏情况对抗性隐私定义下的根本局限性仍缺乏深入理解。我们在f-差分隐私框架下分析DP-SGD——该框架通过假设检验权衡曲线来刻画隐私特性,并研究单周期内进行M次梯度更新的混洗采样机制。我们推导出可达权衡曲线的显式次优上界,该结果引出了分离度κ的几何下界(即机制权衡曲线与理想随机猜测线之间的最大距离)。由于较大的分离度意味着显著的对抗性优势,有意义的隐私保护需要较小的κ值。然而我们证明,强制实现小分离度会对高斯噪声乘数σ施加严格下界,这直接限制了可达效用。具体而言,在最坏情况对抗模型下,混洗DP-SGD必须满足 σ≥ 1/√(2ln M) 或 κ≥ 1/8∙(1-1/(4πln M)), 因此无法同时实现强隐私保护与高效用。尽管该边界随M→∞渐近消失,但收敛速度极慢:即使对于实际应用中的更新次数,所需噪声量级仍然显著。我们进一步证明该限制在常数因子范围内同样适用于泊松子抽样。实验证实该边界所隐含的噪声水平会导致实际训练场景下精度显著下降,从而揭示了标准最坏情况对抗假设下DP-SGD的关键瓶颈。
指令微调是适配大语言模型(LLM)的标准范式,但现代指令数据集存在规模庞大、噪声显著且冗余度高等问题,导致全数据微调成本高昂且往往非必要。现有数据选择方法要么需构建高成本的梯度数据存储,要么依赖弱代理模型分配静态分数,大多忽略了模型动态演进过程中的不确定性,因而缺失了LLM可解释性的关键来源。我们提出GRADFILTERING框架——一种与优化目标无关、具备不确定性感知能力的数据选择方法,该方法采用集成LoRA模块的小型GPT-2代理模型,将逐样本梯度聚合为梯度信噪比(G-SNR)效用指标。在多数LLM即评判评估及人工评估中,本方法达到或超越了随机子集及强基线模型的表现。此外,在相同计算预算下,GRADFILTERING所选数据子集的收敛速度优于竞争性筛选方法,印证了不确定性感知评分机制的有效性。
遥感变化检测旨在定位并表征两个时间点之间的场景变化,是环境监测与灾害评估等应用的核心技术。当前视觉自回归模型虽展现出卓越的图像生成能力,但由于可控性弱、密集预测性能欠佳及曝光偏差等问题,其在像素级判别任务中的应用仍受限。本文提出RemoteVAR——一种基于自回归模型的新型变化检测框架,通过交叉注意力机制将多分辨率融合的双时相特征嵌入自回归预测过程,并采用专为变化图预测设计的自回归训练策略,有效解决了上述局限。在标准变化检测基准上的大量实验表明,RemoteVAR相较于基于扩散模型和Transformer的强基线模型均取得显著提升,为遥感变化检测提供了具有竞争力的自回归解决方案。代码将发布于https://github.com/yilmazkorkmaz1/RemoteVAR。
近期基于大语言模型的数据智能体致力于实现从数据分析到深度学习等数据科学任务的自动化。然而,真实世界数据科学问题具有开放性的特点——常跨越多个分类体系且缺乏标准答案——这为评估工作带来重大挑战。为此,我们推出DSAEval基准测试,该基准包含基于285个多样化数据集的641个真实数据科学问题,涵盖结构化与非结构化数据(如视觉与文本数据)。DSAEval具备三大特色:(1) 多模态环境感知能力,使智能体能够解读包括文本和视觉在内的多模态观察结果;(2) 多轮次交互机制,模拟真实数据科学项目中迭代与累积的特性;(3) 多维度评估体系,从推理过程、代码实现与结果输出三个维度进行整体评估。我们使用DSAEval对11个先进的大模型智能体展开系统性评估。结果表明:Claude-Sonnet-4.5综合表现最强,GPT-5.2效率最高,而MiMo-V2-Flash最具成本效益。我们进一步证实多模态感知能持续提升视觉相关任务的表现,改进幅度达2.04%至11.30%。总体而言,当前数据科学智能体在结构化数据和常规分析流程中表现良好,但在非结构化数据领域仍面临重大挑战。最后,我们提出关键见解并规划未来研究方向,以推动数据科学智能体的发展。
许多本科生难以获得专业的研究指导。我们探究人工智能导师能否协助学生从构想到完成论文。为此我们开发了METIS——一个具备工具增强功能、阶段感知的辅助系统,集成文献检索、精选指南、方法论检查与记忆模块。通过LLM作为评判者的两两偏好比较、学生角色量规、短对话辅导及证据/合规性检查,我们在六个写作阶段将METIS与GPT-5和Claude Sonnet 4.5进行对比评估。在90个单轮提示测试中,LLM评判者偏好METIS的比例相较于Claude Sonnet 4.5达71%,相较于GPT-5达54%。分阶段评估显示(清晰度/可操作性/约束匹配度;90提示×3评委),METIS的学生评分全面领先。在多轮对话场景(五种情境/智能体)中,METIS的最终成果质量略高于GPT-5。优势集中体现在文档依托阶段(D-F),这与阶段感知路由和资料锚定机制相符;现存不足包括工具过早路由、资料锚定深度不足及偶发性阶段误判。
在臨床病歷、心理諮詢對話及線上心理健康社群中,抑鬱、焦慮及創傷相關狀態的情感語言表達無處不在,準確識別這些情緒對於臨床分診、風險評估和及時干預至關重要。儘管大型語言模型在情感分析任務中展現出強大的泛化能力,但其在高風險、情境複雜的醫療環境中的診斷可靠性仍高度依賴提示設計。現有方法面臨兩大關鍵挑戰:情感共病現象(多種交織情感狀態使預測複雜化)以及臨床線索探索效率不足。為解決這些難題,我們提出APOLO框架(面向語言情感診斷的自動化提示優化),通過系統性探索更廣闊且更細粒度的提示空間來提升診斷效率與穩健性。APOLO將指令優化建模為部分可觀測馬爾可夫決策過程,採用規劃者、教師、評判者、學生與目標代理的多智能體協作機制。在此閉環框架中,規劃者定義優化路徑,教師-評判者-學生代理迭代精煉提示以增強推理穩定性與有效性,目標代理則根據性能評估決定是否繼續優化。實驗結果表明,APOLO在領域專用與分層基準測試中持續提升診斷準確度與穩健性,為心理健康領域構建可信賴的大型語言模型應用提供了可擴展、可泛化的範式。
主动学习(AL)在三维生物医学图像分割领域具有显著降低标注成本的潜力,因为专家对体数据的标注既耗时又昂贵。然而现有AL方法始终无法稳定超越针对三维数据改进的随机采样基线,导致该领域缺乏可靠解决方案。我们提出类别分层调度幂预测熵(ClaSP PE)这一简单高效的查询策略,解决了基于不确定性的标准AL方法两个关键局限:类别不平衡和早期选择冗余。ClaSP PE通过结合类别分层查询确保对低代表性结构的覆盖,采用对数尺度幂噪声与衰减调度机制,在AL早期阶段强制实现查询多样性,后期则促进针对性挖掘。在使用综合nnActive基准测试中四个三维生物医学数据集进行的24组实验评估中,ClaSP PE是唯一能在分割质量上稳定超越改进随机基线的方法(具有统计学显著增益),同时保持标注效率。此外,我们通过在四个未见数据集上测试方法显式模拟实际应用场景(所有实验参数均按预设指南设置),结果证实ClaSP PE无需人工调整即可稳健泛化至新任务。在nnActive框架内,我们提供了有力证据表明:在接近实际生产的场景下,AL方法能在性能和标注效率上持续超越适用于三维分割的随机基线。开源实现与清晰部署指南使其具备即用性。代码详见https://github.com/MIC-DKFZ/nnActive。