每日精選AI研究論文及翻譯
強化微調(RFT)作為一種由監督微調(SFT)和強化學習(RL)組成的兩階段框架,已在提升大型語言模型(LLM)推理能力方面展現出顯著成效。然而將RFT擴展至大型視訊語言模型(LVLM)仍面臨挑戰。我們提出VideoP2R——一種新穎的流程感知視訊RFT框架,通過將感知與推理建模為獨立流程來增強視訊推理能力。在SFT階段,我們開發了三步流水線來生成VideoP2R-CoT-162K,這是一個專為感知與推理設計的高品質流程感知思維鏈(CoT)資料集。在RL階段,我們引入創新的流程感知群組相對策略優化(PA-GRPO)演算法,為感知和推理分別提供獎勵機制。大量實驗表明,VideoP2R在七項視訊推理與理解基準測試中有六項達到最先進(SotA)性能。消融研究進一步驗證了我們流程感知建模與PA-GRPO的有效性,並證明模型的感知輸出能為下游推理提供充分資訊。
提升大型語言模型(LLMs)的推理能力,特別是在參數受限條件下,對實際應用至關重要。先前研究提出循環變換器架構,通過為每個詞元分配固定額外迭代次數來提升生成質量。在首次標準前向傳播後,該方法不直接進行語言化輸出,而是將最後一層的隱藏狀態反饋為輸入進行多次迭代以優化詞元預測。然而我們發現了一種潛在的過度思考現象:首次傳播後已正確預測的簡單詞元,在後續迭代中有時反而被修正為錯誤預測。為解決此問題,我們提出「難點思考」動態潛在迭代機制,該方法僅對困難詞元進行深度迭代。它採用輕量級神經決策器,僅在標準前向傳播後可能預測錯誤的詞元處觸發潛在迭代。在潛在迭代過程中,低秩自適應模塊將LLM的目標從通用下一詞元預測轉向聚焦於困難詞元的精細化修正。我們進一步引入雙因果注意力機制,將注意力範圍從詞元序列維度擴展至額外的迭代深度維度。此設計在保持完全序列並行性的同時,實現了跨迭代的信息流動。實驗表明,TaH在五個高難度基準測試中均能提升LLM推理性能,且保持參數總量不變。與對所有輸出詞元進行雙次迭代的基準方法相比,TaH在免除94%詞元二次迭代的同時,實現了8.1-11.3%的準確率提升。相比使用相同數據微調的強力單次迭代Qwen3模型,其準確率增益也達到4.0-5.0%。當允許LoRA和迭代決策器引入不足3%的附加參數時,增益分別提升至8.5-12.6%和5.3-5.4%。代碼已開源於:https://github.com/thu-nics/TaH。
創新視覺風格化是藝術創作的基石,然而生成新穎且一致的視覺風格仍是重大挑戰。現有生成方法通常依賴冗長文本提示、參考圖像或參數高效微調來引導風格感知圖像生成,但常面臨風格一致性不足、創造力受限及複雜風格表徵等問題。本文提出「數值代碼即風格」的核心理念,首創代碼驅動風格圖像生成的新任務——僅憑數值風格代碼即可生成具新穎性與一致性的視覺風格圖像。迄今該領域主要由業界(如Midjourney)探索,學術界尚未有開源研究。為填補此空白,我們提出首個開源方法CoTyle。具體而言,我們先從圖像集合訓練離散風格碼本以提取風格嵌入,這些嵌入將作為文生圖擴散模型的條件來生成風格化圖像。隨後,我們在離散風格嵌入上訓練自回歸風格生成器以建模其分佈,從而實現新風格嵌入的合成。推理階段,數值風格代碼通過風格生成器映射為獨特風格嵌入,該嵌入引導文生圖擴散模型生成對應風格的圖像。相較現有方法,本方法以極簡輸入解鎖海量可復現風格空間,兼具無與倫比的簡潔性與多樣性。大量實驗驗證CoTyle能有效將數值代碼轉化為風格控制器,實證「一碼一風格」的可行性。
我們推出AraLingBench:一個完全由人工註解的基準測試,旨在評估大型語言模型(LLMs)的阿拉伯語語言能力。該基準涵蓋五大核心範疇:語法、詞法、拼寫、閱讀理解及句法,透過150道專家設計的選擇題,直接檢驗對語言結構的理解。對35個阿拉伯語及雙語LLMs的評估顯示,當前模型在表層熟練度上表現出色,但在深層語法與句法推理方面仍顯不足。AraLingBench揭示了基於知識的基準測試高分與真正語言掌握之間持續存在的差距,表明許多模型的成功依賴於記憶或模式識別,而非真正的理解。通過隔離並測量基礎語言技能,AraLingBench為開發阿拉伯語LLMs提供了一個診斷框架。完整的評估代碼已在GitHub上公開。
基礎模型已在多個領域徹底改變了人工智慧,但其在極端多標籤分類(XMC)中的變革潛力仍未被充分開發。XMC中的查詢需從極大標籤空間中關聯相關標籤,這要求必須在效率與效能之間取得平衡。因此,近期許多研究透過小型僅編碼器轉換器架構學習的嵌入向量,將XMC高效轉化為最大內積搜索問題。本文針對XMC提出兩個關鍵方向:如何有效運用更大的僅解碼器模型,以及如何在保持計算效率的同時利用視覺資訊。我們證明這兩者分別在XMC中具有關鍵作用,且能結合使用以提升效能。實驗顯示,數十億參數規模的解碼器可在控制計算開銷的同時實現顯著改進。此外,我們提出的視覺增強型極端多標籤學習框架(ViXML)透過對每張圖像提取單一嵌入向量,高效整合基礎視覺模型,在限制計算量增長的同時釋放多模態潛力。值得注意的是,搭載小型編碼器的ViXML在多數情況下優於純文本解碼器,印證「一圖勝過十億參數」的效能突破。最後,我們擴展現有純文本數據集以利用視覺元數據,並公開供後續基準測試使用。在四個公開純文本數據集及其對應圖像增強版本上的全面實驗驗證了本方法的有效性,於最大數據集上P@1指標較先前最佳成果提升達+8.21%。ViXML程式碼已開源於https://github.com/DiegoOrtego/vixml。
雖然思維鏈提示能讓大型語言模型進行複雜的符號推理,但其仍侷限於離散文本,無法模擬現實世界中由物理定律驅動的連續動態。近期影片生成模型透過幀序列推理機制,展現出成為世界模擬器的潛力——將思維具象化為逐幀視覺序列,每幀皆代表基於物理規律的推理步驟。儘管已有令人矚目的展示,核心挑戰依然存在:現有評測基準僅關注擬真度或對齊度,未能評估幀序列推理能力,因此無法衡量模型在多步驟規劃、算法邏輯或抽象模式推演等核心認知能力。此評估空白阻礙了對模型能力的系統性理解與改進的理論指引。我們提出Gen-ViRe(生成式視覺推理基準),該框架植根於認知科學與現實AI應用,將幀序列推理分解為六個認知維度(從感知邏輯到抽象規劃)及24項子任務。通過多源數據策展、極簡提示協議,以及結合詳細標準的混合視覺語言模型輔助評估,Gen-ViRe首度實現對影片模型推理能力的量化評估。我們對頂尖系統的實驗顯示,驚人的視覺品質與實際推理深度存在顯著落差,藉此建立的基線與診斷工具將推動真實世界模擬器的發展。
依賴純文字反思機制的自我反思方法在多數多模態任務中表現良好,但直接應用於長影片理解場景時會顯現明顯侷限性。其根本原因在於兩點:(1)長影片理解涉及更豐富且動態的視覺輸入,僅對文字信息進行反思不足夠,必須針對視覺信息建立專門的反思流程;(2)純文字反思機制缺乏跨模態互動能力,無法在反思過程中充分整合視覺信息。基於這些發現,我們提出REVISOR(面向反思的視覺片段定向推理框架),這是一種新型工具增強型多模態反思架構。REVISOR使多模態大語言模型能夠協同構建跨文本與視覺模態的內省式反思流程,顯著增強其長影片推理能力。為確保REVISOR在強化學習中能精準審閱與問題高度相關的影片片段,我們設計了雙重歸因解耦獎勵機制(DADR)。該機制整合於GRPO訓練策略中,能強化模型推理與所選影片證據間的因果對齊。值得注意的是,REVISOR框架無需額外的監督微調或外部模型,即可顯著提升多模態大語言模型的長影片理解能力,在VideoMME、LongVideoBench、MLVU和LVBench四個基準測試中均取得優異成果。
評估大型視覺語言模型(LVLM)的穩健性,對於其在實際應用中的持續發展與負責任部署至關重要。然而,現有的穩健性基準測試通常側重於幻覺或誤導性文本輸入,卻在很大程度上忽略了誤導性視覺輸入對評估視覺理解能力所構成的同等關鍵挑戰。為填補這一重要空白,我們推出首個全面性基準測試框架MVI-Bench,專門用於評估誤導性視覺輸入如何削弱LVLM的穩健性。該框架基於基礎視覺基元,圍繞誤導性視覺輸入的三個層次結構進行設計:視覺概念、視覺屬性和視覺關係。依此分類體系,我們篩選出六個代表性類別,並彙整了1,248個經專業標註的視覺問答實例。為實現細粒度穩健性評估,我們進一步提出創新指標MVI-敏感度,能在微觀層面表徵LVLM的穩健性。對18個前沿LVLM的實證研究揭示了其對誤導性視覺輸入的顯著脆弱性,而我們透過MVI-Bench進行的深度分析提供了可指導開發更可靠、更穩健LVLM的實用洞見。基準測試框架與程式碼庫可透過https://github.com/chenyil6/MVI-Bench 取得。
我們推出Orion——一個能夠接收任意模態並生成任意模態的視覺智能體框架。該框架採用具備多工具調用能力的智能體架構,專為視覺AI任務設計並實現了最先進的性能。有別於僅產生描述性輸出的傳統視覺語言模型,Orion通過協調一系列專業計算機視覺工具(包括物件檢測、關鍵點定位、全景分割、光學字元辨識與幾何分析)來執行複雜的多步驟視覺工作流。該系統在MMMU、MMBench、DocVQA和MMLongBench等基準測試中達到競爭性表現,同時將單體式視覺語言模型擴展至生產級視覺智能水平。透過融合神經感知與符號執行,Orion實現了自主視覺推理,標誌著從被動視覺理解到主動工具驅動型視覺智能的轉型。
大型语言模型(LLM)正日益被探索用于构建能够通过主动环境交互(如工具使用)来解决复杂问题的智能体。强化学习(RL)被视为训练此类智能体的关键潜力技术,然而将RL有效应用于LLM智能体仍处于起步阶段且面临显著挑战。当前这一新兴领域缺乏针对LLM智能体场景的深度强化学习方法研究,同时也缺少专为此目标设计的灵活可扩展训练框架。为推进该领域发展,本文首先通过系统化扩展马尔可夫决策过程(MDP)框架来重新审视并厘清LLM智能体的强化学习方法,全面定义LLM智能体的关键组件。其次,我们推出了Agent-R1——一个模块化、灵活且用户友好的RL驱动型LLM智能体训练框架,该框架可轻松适配不同任务场景与交互环境。我们在多跳问答基准任务上开展实验,为所提方法及框架的有效性提供了初步验证。
近期,全模態大型語言模型(OmniLLMs)在統一音視頻理解領域日益受到研究關注,然而處理音視頻標記序列會產生顯著的計算瓶頸。現有的標記壓縮方法尚未滿足這種新興的聯合壓縮多模態標記的需求。為此,我們提出OmniZip——一種免訓練、音頻引導的音視頻標記壓縮框架,可優化多模態標記表徵並加速推理。具體而言,OmniZip首先識別顯著音頻標記,隨後為每個時間組計算音頻保留分數以捕捉信息密度,從而動態指導視頻標記剪枝,並保留通過跨模態相似性增強的音頻錨點線索。針對每個時間窗口,該框架採用交錯時空方案壓縮視頻標記。大量實證結果表明,OmniZip在保持性能且無需訓練的前提下,相比其他頂尖方案可實現3.42倍推理加速和1.4倍記憶體減耗。
随着大语言模型(LLMs)的快速发展,现有基准测试在区分前沿模型性能方面已出现饱和现象。与此同时,当前的高难度基准测试往往存在学科覆盖狭窄、答案形式过于简化以及易受数据污染等问题,导致其与真实科学探究之间存在保真度差距。为应对这些挑战,我们推出ATLAS(面向通用人工智能的科学逻辑应用测试平台)——一个由约800道原创题目构成的大规模、高难度、跨学科评估套件。该平台由领域专家(博士及以上级别)开发,涵盖数学、物理、化学、生物、计算机科学、地球科学和材料科学七大核心科学领域,其核心特性包括:(1)高原创性与抗污染性,所有问题均为全新创建或深度改编,有效防止测试数据泄露;(2)跨学科导向,旨在评估模型整合多学科知识进行交叉推理的能力;(3)高保真答案设计,摒弃简单选择题,强调需要多步推理、包含LaTeX格式数学表达式的开放式复杂答案;(4)严格质量控制,采用多阶段专家评审与对抗测试机制,确保问题的难度、科学价值与准确性。我们还提出一种基于LLM评审团的稳健评估范式,实现对复杂答案的自动化精细评估。在主流模型上的初步实验表明,ATLAS能有效区分其高级科学推理能力。我们计划将ATLAS发展为长期开放、社区驱动的平台,为通往通用人工智能的进展提供可靠"标尺"。
基础模型已成为众多视觉任务的有效骨干网络。然而,当前自监督特征将高层语义与低层物理因素(如几何形状和光照)相互纠缠,阻碍了其在需要显式物理推理任务中的应用。本文提出Φeat——一种新型物理驱动的视觉骨干网络,它能促进对材质标识(包括反射率线索和几何细观结构)敏感的表征能力。我们的核心思路是采用一种预训练策略,通过对比不同形状和光照条件下同一材质的空间裁剪样本与物理增强样本来实现这一目标。虽然类似数据此前已被用于本征分解或材质估计等高阶监督任务,但我们证明纯自监督训练策略无需显式标注即可为需要对外部物理因素具有不变性的鲁棒特征任务提供强先验。我们通过特征相似性分析和材质选择评估所学表征,表明Φeat能捕捉超越语义分组的物理驱动结构。这些发现凸显了无监督物理特征学习作为视觉与图形学领域物理感知基础的前景。
大型语言模型(LLM)具备强大的零样本和少样本学习能力。然而在对候选选项集进行预测时,LLM容易受到标签偏差的影响,而现有校准方法往往忽视由多标记类别标签引起的偏差。我们针对标签长度偏差问题展开研究——即使经过标准长度归一化处理,不同长度的标签仍会得到不一致的对待。为缓解该问题,我们提出归一化上下文校准(NCC)方法,这种在全标签层级进行归一化与校准的有效方案,在多个数据集和模型上实现了较现有方法的统计显著提升,F1分数最高提升10%。此外,NCC还能将偏差 mitigation 拓展至多项选择题解答等更广泛任务。分析表明,当与上下文学习结合时,NCC对少样本示例选择的敏感性更低,用更少示例即可获得有竞争力的性能,并能产生更可靠的可信度估计。这些发现凸显了缓解全标签偏差对于提升基于LLM的方法的性能与鲁棒性的重要性,尤其在现实应用中类别标签天然由多标记构成的场景下。
我们推出了一款主动式听觉辅助系统,该系统能自动识别并分离佩戴者的对话对象,无需用户明确指令。该体系基于第一人称双耳音频,以佩戴者的自主语音为锚点,通过利用对话轮转行为和对话动态来推断交流对象并屏蔽其他声源。为实现设备端实时运算,我们提出双模型架构:轻量级流式模型每12.5毫秒运行一次,实现低延迟提取对话对象;而运算频率较低的慢速模型则负责捕捉长时程对话动态。通过在真实场景中采集的2-3人对话测试集(使用双耳第一人称硬件从11位参与者处收集,总时长6.8小时)上的实验表明,该系统在多对话场景中具有识别与隔离对话对象的泛化能力。我们的研究标志着听觉辅助设备向主动适应对话动态与参与度迈出了重要一步。更多信息请访问我们的网站:https://proactivehearing.cs.washington.edu/
智能编码工具以自然语言编写的目标作为输入,将其分解为具体任务,并以最少的人工干预编写或执行实际代码。该过程的核心是智能体上下文文件(即"面向智能体的README文件"),这些文件提供持久性的项目级指令。本文通过对来自1,925个代码库的2,303个智能体上下文文件进行首次大规模实证研究,系统分析了其结构、维护模式和内容特征。研究发现这些文件并非静态文档,而是类似配置代码般持续演化的复杂产物,通过频繁的小幅增补进行维护且可读性较差。对16类指令的内容分析表明,开发者优先关注功能上下文:构建运行命令(62.3%)、实现细节(69.9%)和系统架构(67.7%)。同时发现显著缺失:安全(14.5%)与性能(14.5%)等非功能性需求鲜少被明确规范。这些发现表明,开发者虽利用上下文文件实现智能体功能,却鲜少设置保障措施来确保智能体生成代码的安全性或性能,凸显出改进工具与实践的迫切需求。
儘管三維大語言模型近期取得進展,其在準確將語言對應到三維場景中的視覺與空間元素方面仍存在侷限。這一侷限性部分源於訓練數據過於側重語言推理而缺乏空間理解——由於三維資源稀缺,固有的語義接地偏差未能得到解決。為此,我們提出以三維場景編輯為核心機制,通過細粒度空間操作生成精確的視覺反事實樣本以消除偏差,且無需耗費高昂的場景重建或大規模三維數據採集成本。進一步地,為使編輯操作更具針對性並直擊模型缺陷,我們提出DEER-3D這一誤差驅動框架,採用結構化的"分解、診斷評估、編輯、再訓練"工作流程,而非傳統方法中廣泛或隨機的數據增強策略。具體而言,當檢測到三維大語言模型的語義接地失敗時,本框架首先診斷謂詞層級的具體錯誤類型(如屬性錯誤或空間關係錯誤),隨後執行最小化的謂詞對齊式三維場景編輯(如重新着色或位移),生成針對性反事實監督數據用於迭代式模型微調,從而顯著提升接地精度。我們在多個三維語義接地與場景理解任務的基準測試中評估該編輯流程,通過迭代優化在所有數據集上均取得一致提升。DEER-3D證明了誤差驅動的靶向場景編輯能有效銜接三維大語言模型的語言推理能力與空間接地能力。
人類情感難以通過語言準確傳達,且在表述過程中常被抽象化;而腦電圖信號則能為情感性大腦活動提供更直接的觀測視窗。近期研究表明,深度學習模型可通過處理這些信號實現高精度情感識別。然而現有方法大多忽略了大腦不同區域間的動態交互作用,這種動態特性對於理解情感隨時間展開與演變的規律至關重要,或能有效提升情感識別的準確性。為此,我們提出RBTransformer——一種基於Transformer的神經網絡架構,該架構在潛空間中模擬大腦皮層間神經動力學,以更好地捕捉結構化神經交互,從而實現高效的基於EEG的情感識別。首先將EEG信號轉換為頻帶差分熵特徵標記,並通過電極身份嵌入層保留空間溯源信息。這些特徵標記經由連續的皮層間多頭注意力模塊處理,構建電極×電極注意力矩陣,使模型能夠學習皮層間神經依賴關係。最終特徵通過分類頭部網絡獲得預測結果。我們在SEED、DEAP和DREAMER數據集上開展了廣泛實驗,特別在受試者依賴設定下,針對效價、喚醒度和優勢度三個維度(DEAP和DREAMER數據集),分別進行了二分類與多分類任務測試。結果表明,所提出的RBTransformer在所有數據集的三個維度上,兩種分類設定下均超越既往最佳方法。源代碼已開源於:https://github.com/nnilayy/RBTransformer。
混沌工程(Chaos Engineering)是一种旨在提升分布式系统韧性的工程技术,其核心是通过主动向系统注入故障来测试韧性、发现潜在弱点,并在生产环境发生故障前进行修复。现有的混沌工程工具已能自动化执行预设实验,但实验规划及基于结果的系统优化仍依赖人工操作。这些过程不仅耗费大量人力,还需要多领域专业知识。为应对这些挑战并实现低成本构建高韧性系统的目标,本文提出ChaosEater系统——基于大语言模型实现全周期自动化的混沌工程框架。该系统依据标准化的混沌工程周期预设智能体工作流,并将流程中的细分任务分配给大语言模型。ChaosEater专注于基于Kubernetes的软件系统混沌工程,因此其大语言模型通过需求定义、代码生成、测试调试等软件工程任务完成完整周期。我们通过对中小型及大规模Kubernetes系统的案例研究进行评估,结果表明该系统能以极低的时间和经济成本持续完成合理的混沌工程周期,其有效性同时获得了人类工程师与大语言模型的定性验证。
大型视觉语言模型(LVLM)通常将视觉编码器提取的特征与预训练大语言模型(LLM)对齐。然而,这种设计使视觉感知模块成为性能瓶颈,制约了LVLM的整体能力。传统评估基准虽富含视觉语义信息,但常存在不可避免的局部捷径,可能导致高估模型的感知能力。本文提出TopoPerception基准,利用拓扑特性从多粒度层面严格评估LVLM的全局视觉感知能力。由于拓扑性质依赖图像整体结构且对局部特征具有不变性,该基准能实现无捷径的全局感知评估,与依赖语义的任务形成本质区别。我们在TopoPerception上测试了前沿模型,发现即使在最粗略的感知粒度下,所有模型的表现均不优于随机猜测,揭示其全局视觉特征感知能力的严重缺失。值得注意的是,模型家族内部呈现一致趋势:推理能力越强的模型准确率反而越低。这表明单纯扩大模型规模不仅无法弥补这一缺陷,甚至可能加剧问题。突破性进展可能需要新的训练范式或架构创新。TopoPerception不仅揭示了当前LVLM的关键瓶颈,更为提升其全局视觉感知能力提供了评估视角与发展方向。数据与代码已开源:https://github.com/Wenhao-Zhou/TopoPerception。