每日精選AI研究論文及翻譯
大型語言模型(LLMs)向自主智能體的演進,已將AI編程的範疇從局部程式碼生成擴展至複雜的倉庫級別、執行驅動的問題解決。然而,現有基準測試主要針對靜態情境下的程式邏輯進行評估,忽略了真實工程中動態的全流程需求,尤其後端開發需嚴格環境配置與服務部署的場景。為填補此空白,我們推出ABC-Bench——專為在可執行工作流中評估智能體後端編碼能力而設計的基準測試。透過可擴展的自動化流水線,我們從開源倉庫精選涵蓋8種程式語言與19種框架的224項實務任務。有別於過往評估,ABC-Bench要求智能體管理從倉庫探索到容器化服務實例化的完整開發生命週期,並通過外部端到端API測試。大規模評估顯示,即使是頂尖模型在此類全流程任務中也難以穩定發揮,凸顯當前模型能力與實務後端工程需求間的顯著差距。本項目代碼公開於:https://github.com/OpenMOSS/ABC-Bench。
大型語言模型通常透過思維鏈(CoT)能更有效解決複雜推理任務,但代價是產生冗長且低頻寬的符記序列。相比之下,人類常採用軟性推理方式,持續維護可能後續步驟的機率分佈。受此啟發,我們提出多重思維——一種隨機軟推理機制,在每個思考步驟中採樣K個候選符記,並將其嵌入向量聚合為單一連續型多重符記。此方法既保留了詞彙嵌入的先驗分佈與標準離散生成的採樣動態,又能導出可處理的多重推演機率分佈。因此,多重思維軌跡可直接透過同策略強化學習(RL)進行優化。關鍵在於,多重思維具備自適應特性:當模型置信度高時,多重符記近乎離散,行為類似標準CoT;當模型不確定時,它能緊湊表徵多個合理後續步驟,且不增加序列長度。在具挑戰性的數學推理基準測試中,從Pass@1到Pass@1024的評估範圍內,多重思維始終優於強力的離散CoT與RL基線模型,同時產生更短的序列。程式碼與檢查點已開源於:https://github.com/GMLR-Penn/Multiplex-Thinking。
諸如SAM3等可提示分割基礎模型已透過互動式與概念式提示展現出強大的泛化能力。然而,其在醫學影像分割中的直接應用仍受限於嚴重的領域偏移、缺乏特權空間提示,以及需要對複雜解剖結構和體積數據進行推理的挑戰。本文提出Medical SAM3——一種通用提示驅動的醫學影像分割基礎模型,通過在配備分割標注與文字提示的大規模異構二維及三維醫學影像數據集上對SAM3進行全參數微調而得。透過對原始SAM3的系統性分析,我們發現其對醫學數據的性能顯著衰減,其表面競爭力主要依賴於強幾何先驗(如從真實標注衍生的邊界框)。這些發現促使我們超越單純的提示工程,進行完整的模型適應。通過在涵蓋10種醫學影像模態的33個數據集上微調SAM3的模型參數,Medical SAM3在保持提示驅動靈活性的同時,獲得了穩健的領域特定表徵能力。跨器官、影像模態和維度的廣泛實驗表明,該模型實現了持續且顯著的性能提升,尤其在具有語義模糊性、複雜形態學和長程三維上下文特徵的挑戰性場景中。我們的成果確立了Medical SAM3作為醫學影像領域通用文字引導分割基礎模型的地位,並凸顯了全模型適應對於在嚴重領域偏移下實現穩健提示驅動分割的重要性。程式碼與模型將於https://github.com/AIM-Research-Lab/Medical-SAM3 開源。
在關鍵任務的事實領域中部署大型語言模型時,準確評估模型置信度至關重要。儘管檢索增強生成技術被廣泛應用於提升事實依據性,但RAG場景下的置信度校準機制仍未得到充分理解。我們在四個基準測試上展開系統性研究,發現由於檢索上下文存在噪聲,LLM表現出較差的校準性能。具體而言,矛盾或不相關的證據會加劇模型的虛假確定性,導致嚴重過度置信。為解決此問題,我們提出NAACL規則(噪聲感知置信校準規則),為噪聲下的過度置信問題建立理論基礎。基於這些規則,我們進一步設計NAACL框架,通過整合約2000個HotpotQA示例的監督信號,在無需依賴更強教師模型的情況下,藉助監督微調使模型具備內在的噪聲感知能力。實驗結果表明,NAACL帶來顯著提升,域內ECE分數改善10.9%,域外改善8.0%。通過橋接檢索噪聲與語言校準之間的鴻溝,NAACL為實現既精準又具認知可靠性的大型語言模型開闢了新路徑。
大型語言模型能夠呈現多種角色特徵,但其通常在後訓練階段形成的預設身份為「助手模式」。我們透過提取對應不同角色原型的神經元激活方向,探究模型角色空間的結構。在多個不同模型中發現,該角色空間的主導成分是一條「助手軸線」,其刻畫了模型在預設助手模式下運作的程度。向助手方向調控會強化有益無害的行為;反向調控則增強模型認同其他實體的傾向。值得注意的是,當以較極端值反向調控時,常會誘發神秘戲劇化的表達風格。研究發現該軸線同樣存在於預訓練模型中,其主要促進顧問、教練等有益人類原型,同時抑制靈性類角色。透過測量助手軸線上的偏離程度,可預測「角色漂移」現象——即模型偏離其典型角色特徵,表現出有害或怪異行為。我們發現角色漂移常由兩種對話情境驅動:要求模型對自身運作過程進行元反思的對話,或涉及情感脆弱用户的對話。實驗表明,將神經元激活限制在助手軸線的固定區間內,能有效穩定模型在這些情境下的行為表現,並能抵禦基於角色操控的對抗性攻擊。這些結果表明,後訓練雖能將模型導向角色空間的特定區域,但僅實現了鬆散的錨定,這啟發我們需要開發能更深度固化模型角色一致性的訓練與調控策略。
透過激活干預來引導大型語言模型(LLM)已成為對齊與個人化任務中輕量化的微調替代方案。近期雙向偏好優化(BiPO)研究顯示,可透過直接偏好優化(DPO)方式從偏好數據中直接學習稠密引導向量,從而實現對真實性、幻覺與安全行為的控制。然而,由於神經元的多語義特性,稠密引導向量常會糾結多個潛在因素,這在需要區分密切相關的價值觀與行為(例如中東文化間的細微差異)的文化對齊等細粒度場景中,限制了其效能與穩定性。本文提出「另一種策略優化」(YaPO),這是一種無需參考模型的創新方法,能在稀疏自編碼器(SAE)的潛在空間中學習稀疏引導向量。通過優化稀疏編碼,YaPO能產生解耦、可解釋且高效的引導方向。實證研究表明,相較於稠密引導基線,YaPO具有更快的收斂速度、更強的效能表現以及更高的訓練穩定性。除了文化對齊,YaPO還能泛化至多種對齊相關行為,包括幻覺控制、財富追求、越獄防護與權力追求。重要的是,YaPO能保持模型的通用知識能力,在MMLU基準測試中未出現可量化的效能衰退。總體而言,我們的結果表明YaPO為LLM提供了一種高效、穩定且細粒度的通用對齊方案,在可控性與領域適應方面具有廣泛應用前景。相關程式碼與數據已公開於https://github.com/MBZUAI-Paris/YaPO。
儘管帶有可驗證獎勵的強化學習(RLVR)對於提升大型語言模型的推理能力極為有效,但近期研究顯示,像Qwen 2.5這樣的模型即使面對虛假或錯誤的獎勵信號仍能取得顯著性能提升。我們深入探究此現象並發現一個「困惑度悖論」:虛假RLVR會觸發一種分歧現象——答案標記的困惑度下降的同時,提示側的連貫性卻惡化,表明模型正在繞過推理過程轉向依賴記憶化。透過路徑修補、Logit透鏡、JSD分析與神經微分方程等技術,我們揭露了一個促成此捷徑的隱藏「錨點-適配器」電路。我們定位出中間層(L18-20)的「功能錨點」會觸發記憶化解答的檢索,其後由高層(L21+)的「結構適配器」對表徵進行轉換以適應捷徑信號。最後我們證明,透過調控該電路中特定MLP鍵的規模,可實現雙向因果導向——人為放大或抑制由數據污染驅動的性能表現。本研究為識別與緩解RLVR調優模型中數據污染問題提供了機制層面的路線圖。程式碼公開於:https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts。
人物影像動畫技術在多領域的重要性日益凸顯,這源於對強健且靈活的多主體渲染需求的增長。現有方法雖在單人動畫表現出色,卻難以處理任意主體數量、多樣角色類型,以及參考圖像與驅動姿態間的空間錯位問題。我們認為這些侷限性源於過度僵化的空間綁定機制(強制要求姿態與參考圖像嚴格像素級對齊)以及無法穩定地將運動重新關聯至目標主體。為解決這些挑戰,我們提出CoDance——創新的「解綁-重綁」框架,能基於單一潛在錯位的姿態序列,實現任意主體數量、類型及空間配置的動畫生成。具體而言,解綁模塊採用新型姿態偏移編碼器,通過對姿態及其潛在特徵引入隨機擾動,打破姿態與參考圖像間的剛性空間綁定,從而迫使模型學習位置無關的運動表徵。為確保精準控制與主體關聯,我們設計重綁模塊,利用文字提示的語義引導與主體遮罩的空間指引,將學習到的運動定向映射至目標角色。此外,為實現全面評估,我們建立新的多主體基準數據集CoDanceBench。在CoDanceBench與現有數據集上的大量實驗表明,CoDance實現了頂尖性能,並在多樣主體與空間佈局中展現出卓越的泛化能力。程式碼與權重將開源釋出。
评估多模态大语言模型是否真正理解长篇科学论文仍具挑战性:仅关注答案匹配的指标和合成的"大海捞针"式测试往往只要求答案吻合,却无需模型在文档中建立因果关联的证据推理链条。我们提出"海洋寻踪"范式,要求模型在原始科学文献中构建显式的跨模态证据链。为实现该范式,我们构建了SIN-Data科学交错数据集,完整保留文本与插图的原生交错结构。基于此,我们设计了包含证据发现、假设验证、 grounded QA 和证据锚定摘要四大渐进任务的SIN-Bench评估体系,并引入"无证据不评分"机制——仅当预测结果锚定于可验证证据时才计分,同时通过匹配度、相关性和逻辑性三维度诊断证据质量。在八个主流MLLM上的实验表明:证据锚定是核心瓶颈——Gemini-3-pro以0.573的平均综合得分领先,而GPT-5虽在SIN-QA任务中取得最高答案准确率(0.767),但其证据锚定综合得分不佳,暴露出答案正确性与可追溯证据支持之间的脱节。
PubMed-OCR是一个基于PubMed Central开放获取PDF文件构建的以光学字符识别为核心的科学文献语料库。每页图像均通过谷歌云视觉服务进行标注,并以紧凑的JSON格式发布,包含单词级、行级和段落级边界框标注。该语料库涵盖20.95万篇学术文章(150万页;约13亿词),支持布局感知建模、坐标定位问答以及OCR依赖流程的评估。我们分析了语料库特征(如期刊覆盖范围和检测到的版面特征),并讨论了其局限性,包括对单一OCR引擎的依赖和启发式行重建方法。我们公开数据和架构以促进下游研究,并欢迎扩展补充。
為教導機器人執行複雜操作任務,當前普遍做法是針對特定任務數據對預訓練的視覺-語言-動作模型進行微調。然而,由於這種方法會更新現有表徵,不適用於現實世界中需要長期運行的場景——機器人必須在持續適應新任務與環境的同時,保留已習得的知識。現有的機器人持續學習方法通常需要存儲過往數據(範例樣本),難以應對長任務序列,或需依賴任務標識進行部署。為解決這些局限性,我們提出CLARE框架:一種通用、參數高效的無範例持續學習方法。CLARE通過分層特徵相似度指導,在選定的前饋網絡層中引入輕量級模塊化適配器,並僅在學習新任務時必要處自主擴展模型。部署階段基於自編碼器的路由機制能動態激活最相關適配器,無需任務標籤。在LIBERO基準測試中的大量實驗表明,CLARE在學習新任務時既能保持高性能,又能有效避免對舊任務的災難性遺忘,其表現甚至顯著優於基於範例的方法。代碼與數據詳見:https://tum-lsy.github.io/clare。