每日精選AI研究論文及翻譯
大型語言模型(LLMs)在創意生成任務中的應用日益廣泛,包括對虛構角色的模擬。然而,這些模型在塑造非親社會的對立型人格方面的能力仍鮮少被探討。我們假設,現代LLMs的安全對齊機制與真實演繹道德模糊或反派角色的任務存在根本性衝突。為驗證此觀點,我們提出「道德角色扮演基準」(Moral RolePlay benchmark),該數據集包含四級道德對齊量表及用於嚴謹評估的平衡測試集。我們要求頂尖LLMs演繹從道德典範到純粹惡棍的各類角色。大規模評估結果顯示,隨著角色道德水平降低,角色扮演的擬真度呈現一致且單調的下降趨勢。我們發現模型最難以表現與安全原則直接對立的特質(如「欺詐性」和「操控性」),往往將細膩的惡意替換為淺層的攻擊性。此外,我們證實通用聊天機器人的效能無法有效預測其反派角色扮演能力,高度安全對齊的模型表現尤其不佳。本研究首次系統性揭示了這一關鍵局限,凸顯了模型安全性與創作擬真度之間的深刻矛盾。我們提出的基準與發現為開發更細膩、具情境感知的對齊方法奠定了基礎。
從視覺輸入中捕捉空間關係是實現類人通用智能的基石。過往研究多嘗試通過添加專用編碼器來增強視覺語言模型的空間感知能力,但這種方法會引入額外開銷且通常損害通用性能。為在通用架構中提升空間能力,我們提出視覺空間調優框架——一套培育視覺語言模型從空間感知到推理的類人視覺空間能力的綜合方案。我們首先通過構建大規模數據集VST-P(包含涵蓋單視角、多圖像和視頻的19項技能共410萬樣本)來增強模型的空間感知能力。隨後推出VST-R數據集(含13.5萬精選樣本),指導模型進行空間推理。特別採用漸進式訓練流程:先通過監督微調建立基礎空間知識,再通過強化學習提升空間推理能力。在保持通用性能不受影響的前提下,VST框架在多個空間基準測試中持續取得突破性成果(MMSI-Bench達34.8%,VSIBench達61.2%)。研究表明,視覺語言行動模型可通過此空間調優範式顯著增強,為構建更具物理實體基礎的人工智能開闢新路徑。
具身化多模態模型不僅需要理解文本與圖像,更應能主動調用外部工具(如代碼執行環境與網絡搜索),並將這些操作整合至推理過程中。本研究提出DeepEyesV2,從數據構建、訓練方法與模型評估三個維度探討如何構建具身化多模態模型。我們觀察到僅依靠直接強化學習難以形成穩健的工具使用行為,此現象促使我們設計兩階段訓練流程:建立工具使用模式的冷啟動階段,以及進一步優化工具調用的強化學習階段。我們構建了多樣化且具適度挑戰性的訓練數據集,特別納入工具使用能產生效益的實例。同時推出RealX-Bench綜合基準測試,專為評估需要融合感知、搜索與推理等多重能力的真實世界多模態推理而設計。DeepEyesV2在RealX-Bench及其他代表性基準測試中展現出卓越性能,涵蓋真實場景理解、數學推理及搜索密集型任務。值得注意的是,該模型呈現任務自適應的工具調用特性:感知任務傾向使用圖像操作,推理任務則偏好數值計算。強化學習更促進了複雜工具組合的運用,使模型能根據情境選擇性調用工具。我們期望此研究能為學界開發具身化多模態模型提供實踐指引。
大型語言模型(LLM)能夠透過思維鏈(CoT)進行多步驟推理,但無法可靠地驗證自身邏輯。即使得出正確答案,其底層推理過程可能存在缺陷,這在高風險應用場景中會削弱可信度。為緩解此問題,我們提出 VeriCoT——一種從 CoT 推理中提取並驗證形式邏輯論證的神經符號方法。VeriCoT 將每個 CoT 推理步驟形式化為一階邏輯,並識別將論證錨定於原始上下文、常識知識或先前推理步驟的前提條件。符號化表徵使自動求解器能夠驗證邏輯有效性,而自然語言前提則允許人類和系統識別未錨定或謬誤的推理步驟。在 ProofWriter、LegalBench 和 BioASQ 數據集上的實驗表明,VeriCoT 能有效識別缺陷推理,並可作為最終答案正確性的強力預測指標。我們還利用 VeriCoT 的驗證信號實現:(1) 推論階段的自我反思,(2) 對 VeriCoT 蒸餾數據集進行監督式微調(SFT),以及 (3) 透過基於驗證的成對獎勵進行直接偏好優化(DPO)的偏好微調(PFT),從而進一步提升推理的有效性與準確性。
現實世界中的智能體不僅需要做出合乎邏輯的判斷,更需具備時效性決策能力。這要求智能體持續感知動態環境:危險可能突然出現、機會轉瞬即逝、其他智能體不斷行動,而智能體自身的推理過程仍在進行。儘管語言模型推理技術已取得長足進步,現有方法仍未能充分應對這種動態特性。我們提出「即時推理」作為演化環境中智能體的新問題框架,並構建Real-Time Reasoning Gym進行實證研究。我們探討兩種語言模型部署範式:(1) 反應式智能體——採用有限計算資源的語言模型實現快速響應;(2) 規劃式智能體——允許擴展推理計算以處理複雜問題。實驗表明,即使最先進的模型在兩種範式下都難以兼顧邏輯嚴謹性與時效性。為突破此限制,我們提出AgileThinker框架,能同步運用兩種推理範式。隨著任務難度與時間壓力提升,AgileThinker始終優於單一推理範式的智能體,有效平衡推理深度與響應延遲。本研究確立即時推理作為開發實用智能體的關鍵測試平台,為時序約束型AI系統研究奠定基礎,指明了實現具備實時能力智能體的發展路徑。
近期三維人體動作與語言整合的研究主要聚焦於文字生成動作,使得動作理解任務相對未被充分探索。我們提出密集動作描述這一新穎任務,旨在對三維人體動作序列中的行為進行時間定位與文字描述。現有數據集普遍缺乏細粒度時間標註,且主要由包含少量動作的短序列構成。為突破這些限制,我們推出複雜動作數據集(CompMo),這是首個大規模包含精確時間邊界的複雜動作序列數據集,具有豐富標註。通過精心設計的數據生成流程,CompMo包含60,000個動作序列,每個序列由至少2至10個複合動作構成,並精確標註其時間區間。我們進一步提出DEMO模型,該模型將大型語言模型與簡潔的動作適配器相結合,經訓練可生成具時間錨點的密集描述。實驗結果表明,DEMO在CompMo及適應性基準測試中均顯著超越現有方法,為未來三維動作理解與描述研究建立了堅實基準。
在本研究中,我們發現主流LVLM架構存在對語言模態的固有偏見,這主要源於現行常見的將視覺嵌入簡單附加於輸入文本序列的做法。為解決此問題,我們提出一種簡潔有效的方法,通過整合平均池化後的視覺特徵來優化文本嵌入。實驗表明,我們的方法在成熟基準測試中顯著提升了視覺定位能力並大幅減少幻覺現象。雖然平均池化提供了一種直觀、穩健且高效的視覺信息融合方式,但我們認為更精密的融合方法有望進一步增強視覺定位與跨模態對齊效果。考慮到本研究主要旨在揭示模態不平衡現象及其對幻覺的影響——並證明利用視覺信息優化文本嵌入可緩解此問題——我們將更先進的融合策略探索留待未來研究。
大型语言模型(LLM)的精准置信度校准对其在高风险领域的安全应用至关重要,清晰的言语化置信度表达能有效增强用户信任。传统方法虽能模仿标准置信度表达形式,却往往无法捕捉准确置信度评估所需的推理过程。我们提出自然语言批判作为解决方案——由于精确的黄金置信度标签难以获取且常需多次生成,该方法特别适合置信度校准。本文研究自然语言批判如何增强言语化置信度,重点解决两大问题:(1)批判对象:应针对不确定性(问题导向)还是置信度(答案特异性)?分析表明,置信度适用于多项选择任务,而不确定性在开放场景中表现更优;(2)批判方式:采用自我批判还是批判校准训练?我们提出两种创新方法:使LLM能超越单纯准确率进行置信度自我批判优化的"自我批判"机制,以及利用自然语言批判改进置信度校准的新型训练方法"批判校准"——该方法突破了直接数值优化的局限。实验表明,批判校准显著优于自我批判及其他竞争基线,在复杂推理任务中甚至超越其教师模型GPT-4o。批判校准在分布外场景中也展现出强大的泛化能力,为提升LLM可靠性开辟了新路径。
近期長文本語言模型的突破性進展已能處理百萬級token的輸入,顯著提升了其在電腦代理等複雜任務中的應用能力。然而,這種擴展上下文所帶來的安全影響仍不明朗。為填補此研究空白,我們提出NINJA(Needle-in-haystack jailbreak attack的簡稱),該方法通過在有害用戶目標後附加模型生成的良性內容,實現對已對齊語言模型的越獄攻擊。我們方法的關鍵在於發現有害目標在文本中的位置對模型安全性具有重要影響。在標準安全基準測試HarmBench上的實驗表明,NINJA能顯著提升對LLaMA、Qwen、Mistral和Gemini等前沿開源與專有模型的攻擊成功率。有別於傳統越獄方法,本方法具備低資源消耗、可遷移性強及隱蔽性高等特點。更重要的是,我們證明NINJA具有計算最優性——在固定計算預算下,增加上下文長度相比增加最佳N次越獄的嘗試次數更具效益。這些發現揭示:即使是由良性內容構成的長上下文,若經過精心的目標位置設計,仍會為現代語言模型引入根本性安全漏洞。
近年來,自動化程式修復(APR)領域逐漸轉向大型語言模型與基於代理的系統,然而多數系統僅依賴本地快照上下文,忽略了儲存庫歷史。既有研究顯示,儲存庫歷史有助於修復單行程式碼錯誤,因為最後一次觸及錯誤程式行的提交往往就是引入錯誤的提交。本文探討儲存庫歷史是否能大規模提升代理式APR系統效能,特別針對複雜的多區塊錯誤。我們提出HAFixAgent——具歷史感知的錯誤修復代理,其修復循環中注入了源自追溯標記的儲存庫啟發式策略。針對Defects4J中854個真實錯誤的初步研究啟發了我們的設計,顯示錯誤相關歷史不僅廣泛存在且高度集中。HAFixAgent與兩種頂尖基線方法的實證比較表明:(1)有效性:相較於代理式基線(提升212.3%)與多區塊修復基線(提升29.9%),HAFixAgent實現顯著進步;(2)效率:歷史資訊未顯著增加代理步驟數,且令牌成本保持相當水準,對於複雜的多檔案多區塊錯誤更呈現明顯較低的中位數成本;(3)實用性:結合不同歷史啟發式策略可修復更多錯誤,提供清晰的成本效益權衡。HAFixAgent為具歷史感知的代理式APR提供實用方案:將代理扎根於版本控制歷史,優先採用基於差異比對的歷史上下文,並在需要時整合互補的啟發式策略。