每日精選AI研究論文及翻譯
我們提出了LongLive,這是一個用於實時互動式長視頻生成的幀級自回歸(AR)框架。長視頻生成在效率和質量上都面臨挑戰。擴散模型和擴散強制模型能夠生成高質量的視頻,但由於雙向注意力機制導致效率低下。因果注意力AR模型支持KV緩存以實現更快的推理,但在長視頻訓練中由於內存挑戰,往往會導致質量下降。此外,除了基於靜態提示的生成,互動功能(如流式提示輸入)對於動態內容創作至關重要,使用戶能夠實時引導敘事。這一互動需求顯著增加了複雜性,特別是在提示轉換期間確保視覺一致性和語義連貫性方面。為應對這些挑戰,LongLive採用了因果、幀級AR設計,整合了KV重緩存機制,該機制通過新提示刷新緩存狀態,實現平滑、連貫的切換;流式長調優以支持長視頻訓練並對齊訓練和推理(長訓練長測試);以及短窗口注意力與幀級注意力匯聚(簡稱幀匯聚)相結合,在保持長程一致性的同時實現更快的生成。憑藉這些關鍵設計,LongLive僅用32個GPU天數就將一個13億參數的短片段模型微調至分鐘級生成。在推理時,LongLive在單個NVIDIA H100上維持20.7 FPS,在VBench上無論短視頻還是長視頻都表現出色。LongLive在單個H100 GPU上支持長達240秒的視頻。此外,LongLive還支持INT8量化推理,僅有微小的質量損失。
在多回合環境中訓練具有稀疏獎勵的大型語言模型(LLM)代理,其中完成單一任務需要在一個回合內進行超過30次的互動,這對強化學習提出了根本性的挑戰。我們發現了一種在這種情境下獨特的關鍵失敗模式:探索-利用級聯失敗。這種級聯始於早期策略的過早收斂,稀疏的反饋導致代理採取了有缺陷且低熵的策略。隨後,代理進入晚期策略崩潰階段,傳統的熵正則化在此時反而適得其反,促進了混亂的探索,從而破壞了訓練的穩定性。我們提出了熵正則化策略優化(EPO),這是一個通過三種協同機制打破這一失敗循環的通用框架:(1)在多回合設置中採用熵正則化以增強探索,(2)引入熵平滑正則化器,將策略熵限制在歷史平均值範圍內,以防止劇烈波動,(3)自適應的基於階段的權重調整,在訓練過程中平衡探索與利用。我們的分析證明,EPO在保證收斂的同時,確保了熵方差的單調遞減。EPO在ScienceWorld上實現了高達152%的性能提升,在ALFWorld上提升了19.8%。我們的工作表明,多回合稀疏獎勵設置需要與傳統強化學習截然不同的熵控制方法,這對LLM代理訓練具有廣泛的意義。
強化學習與可驗證獎勵(RLVR)增強了大型語言模型(LLM)的推理能力,但訓練過程常在「熵崩潰」與「熵爆炸」之間波動。我們將這兩種風險歸因於無價值強化學習(如GRPO和DAPO)中使用的均值基線,該基線在獎勵異常值下不當懲罰了負優勢樣本。我們提出了「分位數優勢估計」(QAE),以分組的K分位數基線取代均值。QAE引入了一種回應層面的雙機制閘門:在難題(p ≤ 1 - K)上,它強化罕見的成功;在易題(p > 1 - K)上,它針對剩餘的失敗。在一階softmax更新下,我們證明了「雙側熵安全性」,為單步熵變提供了上下界,從而抑制爆炸並防止崩潰。實證表明,這一微小修改穩定了熵,稀疏化了信用分配(通過調節K,約80%的回應獲得零優勢),並在Qwen3-8B/14B-Base模型上持續提升了AIME 2024/2025和AMC 2023的pass@1成績。這些結果表明,「基線設計」——而非詞元級啟發式——是擴展RLVR的主要機制。
我們推出MinerU2.5,這是一個擁有12億參數的文件解析視覺語言模型,在保持卓越計算效率的同時,達到了最先進的識別準確率。我們的方法採用了一種由粗到精的兩階段解析策略,將全局佈局分析與局部內容識別分離。在第一階段,模型對下采樣圖像進行高效的佈局分析,以識別結構元素,從而避免了處理高分辨率輸入的計算開銷。在第二階段,在全局佈局的指導下,模型對從原始圖像中提取的原生分辨率裁剪區域進行有針對性的內容識別,保留了密集文本、複雜公式和表格中的精細細節。為了支持這一策略,我們開發了一個全面的數據引擎,生成多樣化、大規模的訓練語料庫,用於預訓練和微調。最終,MinerU2.5展示了強大的文件解析能力,在多個基準測試中達到了最先進的性能,在各種識別任務中超越了通用模型和領域專用模型,同時保持了顯著更低的計算開銷。
我們提出了一種針對語言模型的變分推理框架,該框架將思維軌跡視為潛在變量,並通過變分推理對其進行優化。從證據下界(ELBO)出發,我們將其擴展為多軌跡目標以獲得更緊密的邊界,並提出了一種前向KL公式,以穩定變分後驗的訓練。我們進一步表明,拒絕採樣微調和二元獎勵強化學習(包括GRPO)可以被解釋為局部前向KL目標,其中模型準確性的隱式加權自然從推導中產生,並揭示了一種先前未被注意到的偏向於簡單問題的偏見。我們在Qwen 2.5和Qwen 3模型家族上對多種推理任務進行了實證驗證。總體而言,我們的工作提供了一種原則性的概率視角,將變分推理與強化學習風格的方法統一起來,並為提升語言模型的推理能力提供了穩定的目標。我們的代碼可在https://github.com/sail-sg/variational-reasoning獲取。
同行評審作為學術研究的基石,然而在大多數人工智慧會議中,隨著投稿量的激增,評審質量正逐漸下降。為有效識別低質量的評審意見,我們將誤導性評審點定義為評審中基於錯誤前提的“弱點”,或評審中提出的、論文已解答的“問題”。經核實,15.2%的弱點與26.4%的問題存在誤導性,並引入ReviewScore指標來標示評審點是否誤導。為評估每個弱點前提的真實性,我們提出了一種自動化引擎,用於重構弱點中的每一個顯性與隱性前提。我們構建了一個由人類專家標註的ReviewScore數據集,以檢驗大型語言模型(LLMs)在自動化ReviewScore評估中的能力。隨後,我們利用八種當前最先進的LLMs測量了人類與模型在ReviewScore上的一致性,證實了中等程度的一致性。此外,我們證明,評估前提層面的真實性相比評估弱點層面的真實性,顯示出顯著更高的一致性。深入的差異分析進一步支持了實現全自動ReviewScore評估的潛力。
大型語言模型(LLMs)通常通過來自人類或AI的反饋進行強化學習(RL)訓練,然而此類方法通常將細緻的反饋壓縮為標量獎勵,丟失了其豐富性並導致尺度失衡。我們提出將言語反饋視為條件信號。受文本到圖像生成中語言先驗的啟發,該先驗能夠從未見提示中產生新穎輸出,我們引入了反饋條件策略(FCP)。FCP直接從回應-反饋對中學習,通過對離線數據的最大似然訓練來近似反饋條件後驗。我們進一步開發了一個在線引導階段,在此階段中,策略在積極條件下生成並接收新的反饋以自我完善。這將反饋驅動的學習重新定義為條件生成而非獎勵優化,為LLMs提供了一種更富表現力的方式來直接從言語反饋中學習。我們的代碼可在https://github.com/sail-sg/feedback-conditional-policy獲取。
圖像描述是一項連接視覺與語言領域的基礎任務,在大型視覺語言模型(LVLMs)的預訓練中扮演著關鍵角色。當前最先進的描述模型通常通過監督微調(SFT)進行訓練,這一範式依賴於昂貴且難以擴展的人類或專有模型註釋數據。這種方法往往導致模型記住特定的標準答案,限制了其通用性及生成多樣化、創造性描述的能力。為克服SFT的侷限,我們提出將可驗證獎勵的強化學習(RLVR)範式應用於開放式圖像描述任務。然而,主要挑戰在於為“好”描述這一主觀本質設計客觀的獎勵函數。我們引入了描述強化學習(CapRL),這是一種新穎的訓練框架,通過描述的有用性重新定義描述質量:高質量的描述應使非視覺語言模型能夠準確回答關於相應圖像的問題。CapRL採用解耦的兩階段流程,其中LVLM生成描述,而客觀獎勵則基於一個獨立的、無視覺的LLM僅根據該描述回答多選題的準確性來確定。作為首個將RLVR應用於主觀圖像描述任務的研究,我們展示了CapRL在多種設置下顯著提升性能。在由CapRL-3B註釋的CapRL-5M描述數據集上進行預訓練,在12個基準測試中取得了顯著提升。此外,在描述質量評估的Prism框架內,CapRL的表現與Qwen2.5-VL-72B相當,同時平均超出基線8.4%。代碼可在此處獲取:https://github.com/InternLM/CapRL。
強化學習與可驗證獎勵(RLVR)是一種強大的框架,旨在提升大型語言模型(LLMs)的推理能力。然而,現有方法如GRPO僅依賴於模型對同一輸入產生不同正確性回應的問題,而忽略了所有回應獲得相同獎勵的情況——即所謂的零方差提示。在本研究中,我們主張此類提示並非無用,實際上能為策略優化提供有意義的反饋。基於此,我們引入了零方差提示強化學習(RL-ZVP),這是一種新穎的算法,能夠從零方差提示中提取學習信號。RL-ZVP直接獎勵正確性並懲罰錯誤,無需對比不同回應,通過調節基於詞元層次特徵的反饋來保留信息豐富且細膩的信號。在六個數學推理基準測試中,RL-ZVP相較於GRPO在準確率上實現了最高達8.61分的提升,在通過率上提升了7.77分,同時持續優於其他過濾掉零方差提示的基線方法。這些結果凸顯了在RLVR中從零方差提示學習的未開發潛力。
大型語言模型(LLMs)正從對話系統演進為強大的推理工具,適用於奧林匹克數學和競技編程等任務。雖然參數規模和測試時計算的擴展推動了進展,但一個關鍵瓶頸在於缺乏高質量的訓練問題:人工整理的數據集成本高昂且有限,而現有的合成語料庫往往過於簡單或狹窄。PromptCoT 1.0 展示了在提示合成中注入推理過程可以增加問題難度。在此基礎上,我們提出了 PromptCoT 2.0,這是一個可擴展的框架,用期望最大化(EM)循環取代了手工設計的啟發式方法,通過迭代精煉推理過程來指導提示構建。這產生了比以往語料庫更難且更多樣化的問題。這些合成提示支持兩種後訓練機制:(1)自我對弈,其中強模型通過可驗證的反饋自主改進,無需更強的老師;(2)監督微調(SFT),其中較弱模型從老師蒸餾的軌跡中學習。大量實驗證明了這種方法的有效性。在自我對弈中,將 PromptCoT 2.0 應用於 Qwen3-30B-A3B-Thinking-2507 在 30B 規模上取得了新的最先進成果,在 AIME 24/25 和 HMMT 25 上分別提升了 +4.4、+4.8 和 +5.3,在 LiveCodeBench v5/v6 上分別提升了 +6.1 和 +5.0,在 Codeforces 上提升了 +35 Elo。在 SFT 中,僅使用合成提示訓練 Qwen2.5-7B-Instruct 將準確率提升至 73.1(AIME 24)、65.6(AIME 25)和 53.4(LiveCodeBench v5),超越了使用人類或混合數據訓練的模型。分析進一步證實,PromptCoT 2.0 產生了本質上更難且分佈不同的問題。這些結果確立了提示合成作為擴展推理的新維度,並將 PromptCoT 2.0 定位為未來開源模型的可擴展基礎。實現代碼可在 https://github.com/inclusionAI/PromptCoT 獲取。
機器人解讀人類指令並執行操控任務的能力,依賴於具備任務相關的桌面場景以供訓練。然而,傳統創建這些場景的方法依賴於耗時的手動佈局設計或純粹隨機的佈局,這些方法在合理性或與任務的契合度方面存在局限。本文提出了一項新穎任務,即面向任務的桌面場景生成,由於高層次任務指令與桌面場景之間存在顯著差距,該任務面臨重大挑戰。為支持此類具挑戰性任務的研究,我們引入了MesaTask-10K,這是一個大規模數據集,包含約10,700個合成桌面場景,其佈局經過精心設計,確保了場景的真實性及物體間複雜的相互關係。為彌補任務與場景之間的鴻溝,我們提出了一種空間推理鏈,將生成過程分解為物體推斷、空間相互關係推理及最終三維佈局的場景圖構建。我們展示了MesaTask,這是一個基於大語言模型(LLM)的框架,利用此推理鏈,並進一步通過DPO算法增強,以生成與給定任務描述高度契合且物理上合理的桌面場景。詳盡的實驗表明,MesaTask在生成符合任務要求、佈局真實的桌面場景方面,相較於基線方法展現出優異性能。項目頁面位於https://mesatask.github.io/。
我們推出LLaVA-OneVision-1.5,這是一系列新型的大型多模態模型(LMMs),其在顯著降低計算與財務成本的前提下,達到了業界領先的性能。與現有研究不同,LLaVA-OneVision-1.5提供了一個開放、高效且可重現的框架,用於從零開始構建高質量的視覺-語言模型。LLaVA-OneVision-1.5的發布包含三大核心組件:(1)大規模精選數據集:我們構建了包含8500萬概念平衡的預訓練數據集LLaVA-OneVision-1.5-Mid-Traning,以及精心策劃的2600萬指令數據集LLaVA-OneVision-1.5-Instruct,兩者共涵蓋了640億壓縮多模態標記。(2)高效訓練框架:我們開發了一套完整的端到端高效訓練框架,利用離線並行數據打包策略,使得LLaVA-OneVision-1.5的訓練能在16,000美元的預算內完成。(3)頂尖性能表現:實驗結果顯示,LLaVA-OneVision1.5在廣泛的下游任務中展現出極具競爭力的性能。具體而言,LLaVA-OneVision-1.5-8B在27個基準測試中的18個上超越了Qwen2.5-VL-7B,而LLaVA-OneVision-1.5-4B在所有27個基準測試上均優於Qwen2.5-VL-3B。我們預計不久將發布LLaVA-OneVision-1.5-RL,並鼓勵學術界期待更多更新。
自主代理系统近期在多个领域取得了显著进展,然而大多数评估仍集中于短期、完全可观测的任务。相比之下,许多关键的现实世界任务,如大规模软件开发、商业投资及科学发现,往往在长期且部分可观测的情境中展开,其成功依赖于持续的推理、规划、记忆管理及工具使用。现有基准测试鲜少涵盖这些长期挑战,导致系统性评估存在空白。为填补这一空白,我们提出了UltraHorizon这一新颖基准,旨在衡量应对复杂现实挑战所需的基础能力。我们以探索作为统一任务,跨越三个不同环境,验证这些核心能力。代理被设计用于长期发现任务中,需通过持续的推理、规划、记忆与工具管理,以及与环境互动,逐步揭示隐藏规则。在最严苛的规模设定下,轨迹平均超过20万标记和400次工具调用,而在标准配置中,仍平均超过3.5万标记和60次工具调用。我们的广泛实验表明,在这些设定下,LLM代理持续表现不佳,而人类参与者则获得更高分数,凸显了代理在长期能力上的持续差距。我们还观察到,简单的规模扩展在我们的任务中失效。为了更好地说明代理的失败,我们对收集的轨迹进行了深入分析,识别出八类错误,并将其归因于两大主要原因:上下文锁定与功能基础能力差距。 https://github.com/StarDewXXX/UltraHorizon{我们的代码将在此处提供。}
我们提出了“看、指、飞”(See, Point, Fly, SPF),一种基于视觉-语言模型(Vision-Language Models, VLMs)的无训练空中视觉与语言导航(Aerial Vision-and-Language Navigation, AVLN)框架。SPF能够在任何环境中,依据任何形式的自由指令,导航至任意目标。与现有将动作预测视为文本生成任务的VLM方法不同,我们的核心见解是将AVLN中的动作预测视为二维空间定位任务。SPF利用VLMs将模糊的语言指令分解为输入图像上二维航点的迭代标注。结合预测的飞行距离,SPF将预测的二维航点转换为三维位移向量,作为无人机的动作指令。此外,SPF还自适应地调整飞行距离,以促进更高效的导航。值得注意的是,SPF以闭环控制的方式执行导航,使无人机能够在动态环境中跟随动态目标。在DRL模拟基准测试中,SPF创下了新的技术标杆,较之前最佳方法的绝对优势达63%。在广泛的现实世界评估中,SPF大幅超越了强基线。我们还进行了全面的消融研究,以凸显我们设计选择的有效性。最后,SPF展示了对于不同VLMs的显著泛化能力。项目页面:https://spf-web.pages.dev
大型語言模型(LLMs)的訓練後壓縮主要依賴於低秩權重近似,該方法將權重矩陣的每一列表示在一個共享的低維子空間中。雖然這是一種計算效率高的策略,但所施加的結構約束較為僵化,可能導致模型精度顯著下降。在本研究中,我們提出了CoSpaDi(基於稀疏字典學習的壓縮),這是一種新穎的無需訓練的壓縮框架,它用更靈活的結構化稀疏分解取代了低秩分解,其中每個權重矩陣由一個密集字典和一個列稀疏係數矩陣表示。這種形式實現了子空間聯合表示:原始權重矩陣的不同列在由自適應選擇的字典原子所張成的不同子空間中進行近似,提供了比單一不變基更大的表達能力。關鍵在於,CoSpaDi利用一個小型校準數據集來優化分解,使得壓縮投影層的輸出激活與原始層的輸出激活緊密匹配,從而最小化功能重建誤差而非僅僅是權重近似。這種數據感知策略在合理的壓縮比下無需任何微調即可更好地保持模型保真度。此外,所產生的結構化稀疏性允許高效的稀疏-密集矩陣乘法,並且與訓練後量化兼容,以進一步獲得內存和延遲的增益。我們在多個Llama和Qwen模型上評估了CoSpaDi,在20-50%的壓縮比下進行了逐層和逐組設置,結果顯示其在準確性和困惑度方面均優於最先進的數據感知低秩方法。我們的結果確立了結構化稀疏字典學習作為傳統低秩方法在高效LLM部署中的強大替代方案。
大型語言模型和多模態系統日益增強的效能,激發了人們對語音優先AI助手的興趣,然而現有的基準測試並不足以全面評估這些系統的能力。我們推出了VoiceAssistant-Eval,這是一個旨在全面評估AI助手在聽、說、看三方面表現的綜合基準。VoiceAssistant-Eval包含了10,497個精選範例,涵蓋13個任務類別。這些任務包括自然聲音、音樂和口語對話的聆聽;多輪對話、角色扮演模仿及各種場景的說話;以及高度異質性圖像的觀看。為展示其效用,我們評估了21個開源模型和GPT-4o-Audio,測量了回應內容和語音的質量,以及它們的一致性。結果揭示了三個關鍵發現:(1)專有模型並未普遍優於開源模型;(2)大多數模型在說話任務上表現出色,但在音頻理解方面落後;(3)設計良好的小型模型可以與更大的模型相媲美。值得注意的是,中等規模的Step-Audio-2-mini(7B)在聆聽準確性上超過了LLaMA-Omni2-32B-Bilingual的兩倍。然而,挑戰依然存在:多模態(音頻加視覺)輸入和角色扮演語音模仿任務對當前模型來說仍具難度,且在魯棒性和安全對齊方面存在顯著差距。VoiceAssistant-Eval識別了這些差距,並為評估和指導下一代AI助手的發展建立了嚴謹的框架。代碼和數據將在https://mathllm.github.io/VoiceAssistantEval/ 發布。
我們提出了一種新穎的方法,用於從預訓練擴散模型的骨幹中分離視覺與語義特徵,從而實現類似於已確立語義對應的視覺對應。儘管已知擴散模型骨幹編碼了豐富的語義特徵,它們也必然包含支持其圖像合成能力的視覺特徵。然而,由於缺乏註釋數據集,隔離這些視覺特徵具有挑戰性。為此,我們引入了一條自動化流程,基於現有的主題驅動圖像生成數據集構建帶有註釋語義和視覺對應的圖像對,並設計了一種對比架構來區分這兩種特徵類型。利用分離後的表示,我們提出了一種新度量——視覺語義匹配(VSM),用於量化主題驅動圖像生成中的視覺不一致性。實驗結果表明,我們的方法在量化視覺不一致性方面優於基於全局特徵的度量如CLIP、DINO及視覺-語言模型,同時還能實現不一致區域的空間定位。據我們所知,這是首個支持主題驅動生成中不一致性量化與定位的方法,為推進此任務提供了寶貴工具。項目頁面:https://abdo-eldesokey.github.io/mind-the-glitch/
通用圖像修復(UIR)旨在恢復因未知混合因素而退化的圖像,同時保持語義——在這些條件下,判別式修復器和基於UNet的擴散先驗往往會過度平滑、產生幻覺或偏離。我們提出了LucidFlux,這是一個無需圖說(caption-free)的UIR框架,它適應了一個大型擴散變換器(Flux.1),且不依賴圖像圖說。LucidFlux引入了一個輕量級的雙分支條件器,該條件器從退化的輸入和輕度恢復的代理中注入信號,分別錨定幾何結構並抑制偽影。接著,設計了一個基於時間步和層次的自適應調製計劃,以在骨幹網絡的層次結構中傳遞這些線索,從而產生從粗到細且上下文感知的更新,在恢復紋理的同時保護全局結構。此外,為了避免文本提示或多模態大語言模型(MLLM)圖說的延遲和不穩定性,我們通過從代理中提取的SigLIP特徵來強制實現無需圖說的語義對齊。一個可擴展的數據篩選管道進一步過濾大規模數據,以獲得結構豐富的監督。在合成和真實場景的基準測試中,LucidFlux始終優於強大的開源和商業基線,消融研究驗證了每個組件的必要性。LucidFlux表明,對於大型擴散變換器(DiTs)而言,何時、何地以及對什麼進行條件化——而不是增加參數或依賴文本提示——是在真實場景中實現魯棒且無需圖說的通用圖像修復的關鍵槓桿。
微調作為適應大型語言模型的基礎方法,長期以來被認為在模型編輯方面效果不佳。本文挑戰這一觀點,認為所報告的失敗並非源於微調本身的固有局限,而是源於將其應用於編輯任務的順序特性時,採用了單次深度優先的流程,即在處理下一個樣本前將每個樣本優化至收斂。儘管這種深度優先流程直觀易懂,但結合逐樣本更新會過度優化每次編輯,並引發編輯間的干擾。我們的對照實驗表明,僅需將微調恢復至標準的廣度優先(即基於epoch的)流程,並採用小批量優化,即可顯著提升其在模型編輯中的效果。此外,編輯中的微調還受到先前方法遺留的次優調參位置的影響。通過系統分析調參位置,我們提出了LocFT-BF,這是一種基於恢復微調框架的簡單而有效的局部化編輯方法。跨多種大型語言模型和數據集的廣泛實驗表明,LocFT-BF大幅領先於現有最先進的方法。值得注意的是,據我們所知,它是首個能夠在不犧牲通用能力的情況下,支持10萬次編輯和720億參數模型的方法,這一規模是先前實踐的10倍。通過澄清長期以來的誤解並引入有原則的局部化調參策略,我們將微調從被低估的基線方法提升為模型編輯的領先方法,為未來研究奠定了堅實基礎。
基於大型語言模型(LLMs)的代理系統在倉庫級代碼生成任務中展現了卓越的性能。然而,對於依賴視覺效果和用戶互動反饋的網站代碼庫生成任務,當前的代碼代理僅依賴於簡單的代碼執行來獲取反饋和驗證。這種方法無法捕捉生成代碼的實際質量。本文提出了一種新型網站生成代理——WebGen-Agent,該代理利用全面且多層次的視覺反饋,迭代生成並精煉網站代碼庫。通過視覺語言模型(VLM),生成關於網站截圖和GUI代理測試的詳細且具表達性的文本描述與建議,並量化其質量評分。截圖和GUI代理評分進一步與回溯和擇優機制相結合,提升了代理的性能。利用WebGen-Agent工作流程中固有的精確視覺評分,我們進一步引入了帶有截圖和GUI代理反饋的Step-GRPO,以增強LLMs作為WebGen-Agent推理引擎的能力。通過將每一步的截圖和GUI代理評分作為Step-GRPO中的獎勵,我們提供了一個密集且可靠的過程監督信號,有效提升了模型的網站生成能力。在WebGen-Bench數據集上,WebGen-Agent將Claude-3.5-Sonnet的準確率從26.4%提升至51.9%,外觀評分從3.0提升至3.9,超越了先前最先進的代理系統。此外,我們的Step-GRPO訓練方法將Qwen2.5-Coder-7B-Instruct的準確率從38.9%提升至45.4%,外觀評分從3.4提升至3.7。
近期的大型语言模型(LLMs)与大型视觉语言模型(LVLMs)越来越多地采用强化学习(RL)进行预训练后的优化,例如针对客观任务的可验证奖励强化学习(RLVR)及针对主观任务的人类反馈强化学习(RLHF)。然而,RLHF因依赖人类偏好而成本高昂且可能导致奖励策略失配,而RLVR则在每次更新后丢弃探索轨迹与正确性信号,造成监督资源的浪费。为解决这些问题,我们提出了协同策略与奖励共进化框架(SPARK),这是一种高效、基于策略且稳定的方法,建立在RLVR基础之上。SPARK不再舍弃探索轨迹与正确性数据,而是回收这些宝贵信息,同时将模型自身训练为生成式奖励模型。此辅助训练采用混合目标,如点状奖励评分、成对比较及基于进一步反思响应的评估,以教导模型评估并改进其自身响应。我们的流程无需独立的奖励模型及昂贵的人类偏好数据。SPARK构建了一个正向的共进化反馈循环:奖励准确性的提升带来更优的策略梯度,进而产生更高质量的探索轨迹,进一步精炼奖励模型。这一统一框架支持通过自我反思实现测试时的扩展,无需外部奖励模型及其相关成本。我们展示SPARK在多个LLM与LVLM模型及多种推理、奖励模型与通用基准测试上均取得了显著的性能提升。例如,SPARK-VL-7B在7个推理基准上平均提升9.7%,在2个奖励基准上提升12.1%,在8个通用基准上提升1.5%,展现了其鲁棒性与广泛的泛化能力。
檢索增強生成(Retrieval-Augmented Generation, RAG)及基於圖的RAG已成為利用外部知識增強大型語言模型(Large Language Models, LLMs)的重要範式。然而,現有方法面臨一個根本性的權衡:基於圖的方法本質上依賴於高質量的圖結構,但卻受到顯著的實際限制——手動構建的知識圖譜在擴展上成本過高,而從語料庫中自動提取的圖則受限於底層LLM提取器的性能,尤其是在使用較小、本地部署的模型時。本文提出了Think-on-Graph 3.0(ToG-3),這是一個新穎的框架,引入了多智能體上下文演化與檢索(Multi-Agent Context Evolution and Retrieval, MACER)機制以克服這些限制。我們的核心創新在於動態構建並精煉一個Chunk-Triplets-Community異構圖索引,該索引首次融合了查詢演化與子圖演化的雙重演化機制,以實現精確的證據檢索。這一方法解決了先前基於圖的RAG方法的一個關鍵限制,即通常一次性構建靜態圖索引而不適應實際查詢。一個由構造者、檢索者、反思者與響應者智能體組成的多智能體系統,協同參與證據檢索、答案生成、充分性反思,以及至關重要的查詢與子圖演化的迭代過程。這種雙重演化的多智能體系統使ToG-3能夠在推理過程中自適應地構建目標圖索引,緩解了靜態一次性圖構建的固有缺陷,並使得即使使用輕量級LLM也能進行深度精確的推理。大量實驗表明,ToG-3在深度與廣度推理基準上均優於對比基線,而消融研究則證實了MACER框架各組件的有效性。
佈局估計與3D物體檢測是室內場景理解中的兩項基礎任務。當二者結合時,能夠創建出既緊湊又語義豐富的場景空間表示。現有方法通常依賴於點雲輸入,這帶來了一個主要限制,因為大多數消費級相機缺乏深度傳感器,而僅依賴視覺數據的情況仍然更為普遍。我們通過TUN3D解決了這一問題,這是首個在多視圖圖像作為輸入的情況下,無需真實相機姿態或深度監督,就能處理真實掃描中聯合佈局估計與3D物體檢測的方法。我們的方法基於輕量級的稀疏卷積骨幹網絡,並採用了兩個專用頭部:一個用於3D物體檢測,另一個用於佈局估計,後者利用了新穎且有效的參數化牆體表示。大量實驗表明,TUN3D在三個具有挑戰性的場景理解基準測試中均達到了最先進的性能:(i) 使用真實點雲,(ii) 使用帶姿態的圖像,以及(iii) 使用無姿態的圖像。在與專門的3D物體檢測方法表現相當的同時,TUN3D在佈局估計方面取得了顯著進展,為整體室內場景理解設立了新的標杆。代碼可在https://github.com/col14m/tun3d 獲取。
基於大量語料訓練的大型語言模型,成功將多樣化的語言任務統一於單一生成框架之中。受此啟發,近期如大型視覺模型(LVM)等研究將此範式延伸至視覺領域,通過將任務組織成序列化的視覺句子,其中視覺提示作為引導輸出的上下文。然而,此類建模需要跨模態和數據源的任務特定預訓練,成本高昂且限制了對未見任務的可擴展性。鑒於預訓練的視頻生成模型本質上捕捉了時間序列依賴性,我們探索了一種更為統一且可擴展的替代方案:預訓練的視頻生成模型能否適應多樣的圖像和視頻任務?為解答此問題,我們提出了UniVid框架,該框架微調視頻擴散變壓器以處理多種視覺任務,無需任務特定修改。任務被表示為視覺句子,其中上下文序列既定義了任務也指定了期望的輸出模態。我們從兩個角度評估UniVid的泛化能力:(1) 跨模態推理,上下文由圖像和視頻共同構成,超越了LVM的單模態設定;(2) 跨源任務,從自然數據到註釋數據,無需多源預訓練。儘管僅在自然視頻數據上訓練,UniVid在兩種情境下均展現出良好的泛化能力。值得注意的是,在此範式中,理解和生成任務可通過簡單反轉視覺句子的順序輕鬆切換。這些發現凸顯了預訓練視頻生成模型作為視覺建模可擴展且統一基礎的潛力。我們的代碼將發佈於https://github.com/CUC-MIPG/UniVid。
圖形用戶界面(GUI)代理旨在通過模擬用戶交互來自動化廣泛的人類任務。儘管技術迅速進步,當前方法仍面臨幾個關鍵挑戰:端到端訓練中的數據瓶頸、延遲錯誤檢測的高成本以及矛盾指導的風險。受人類認知循環——思考、對齊與反思的啟發,本文提出了一種新穎的審議框架——D-Artemis。D-Artemis利用細粒度的、應用特定的提示檢索機制來指導其決策過程。它還採用了主動的預執行對齊階段,其中思想-行動一致性(TAC)檢查模塊與行動校正代理(ACA)協同工作,以降低執行失敗的風險。執行後的狀態反思代理(SRA)完成了認知循環,使系統能夠從經驗中進行戰略性學習。關鍵的是,D-Artemis增強了通用多模態大語言模型(MLLMs)在GUI任務中的能力,而無需在複雜的軌跡數據集上進行訓練,展示了強大的泛化能力。D-Artemis在主要基準測試中均創下了新的最先進(SOTA)成績,在AndroidWorld上達到了75.8%的成功率,在ScreenSpot-V2上達到了96.8%。廣泛的消融研究進一步證明了框架中每個組件的顯著貢獻。
強化微調(Reinforcement Fine-Tuning, RFT)常面臨獎勵過度優化的問題,即策略模型通過操縱獎勵信號來獲得高分,卻產出低質量的結果。我們的理論分析揭示,問題的關鍵在於高獎勵尾部的獎勵誤設:無法可靠地區分優秀回應與僅為良好的回應。這促使我們聚焦於高獎勵區域。然而,在基礎大語言模型(LLM)下,此類尾部樣本稀缺。雖然離策略範例(如來自更強模型或重寫的樣本)較易獲取,但直接在其上訓練會導致我們希望對齊的策略的獎勵誤設。為解決這一問題,我們研究了基於評分標準的獎勵機制。設計上,評分標準能夠利用離策略範例,同時對其人工痕跡保持不敏感。為引出能捕捉高獎勵尾部的評分標準,我們強調了區分優秀且多樣化回應的重要性,並引入了一套工作流程來實現這一理念。我們通過實證表明,基於評分標準的獎勵顯著緩解了獎勵過度優化,並有效提升了LLM的後訓練效果。我們的代碼可於https://github.com/Jun-Kai-Zhang/rubrics.git 獲取。
人類通過與世界的積極互動來發展對直觀物理的理解。這種方法與當前如Sora等視頻模型形成鮮明對比,後者依賴於被動觀察,因此在把握物理因果關係方面存在困難。這一觀察引出了我們的核心假設:世界模型中的真實物理直覺必須基於與現實世界廣泛且因果豐富的互動。為驗證這一假設,我們提出了WoW,這是一個擁有140億參數的生成式世界模型,訓練於200萬條機器人互動軌跡之上。我們的研究發現,模型對物理的理解是可能結果的概率分佈,這導致了隨機不穩定性和物理幻覺。此外,我們展示了通過SOPHIA可以主動約束這種新興能力,使其趨向物理真實性,其中視覺-語言模型代理評估DiT生成的輸出,並通過迭代演進語言指令來指導其改進。此外,一個共同訓練的逆動力學模型將這些精煉的計劃轉化為可執行的機器人動作,從而閉合了從想象到行動的循環。我們建立了WoWBench,這是一個專注於視頻中物理一致性和因果推理的新基準,WoW在其中無論是在人類還是自動評估中都達到了最先進的性能,展現了在物理因果性、碰撞動力學和物體恆常性方面的強大能力。我們的工作提供了系統性證據,表明大規模的現實世界互動是發展AI物理直覺的基石。模型、數據和基準將被開源。
強化學習(RL)是提升大型語言模型(LLMs)在長期、稀疏獎勵的代理任務中策略性工具使用能力的主導範式,然而它面臨著探索與利用之間的基本權衡挑戰。現有研究通過策略熵的視角來激發探索,但這種機械的熵最大化容易因多輪分佈偏移而導致RL訓練不穩定。本文旨在代理自身經驗的指導下實現漸進的探索與利用平衡,既不陷入熵崩潰,也不導致失控發散。我們提出了SPEAR,一種基於課程的自模仿學習(SIL)配方,用於訓練代理型LLMs。它擴展了基礎的SIL框架,其中回放緩存存儲自生成的潛在軌跡以供離策略更新,通過逐步引導策略演變在跨階段的良好平衡熵範圍內。具體而言,我們的方法結合了課程來管理探索過程,利用內在獎勵促進技能層面的探索,並通過SIL促進動作層面的探索。最初,輔助工具調用獎勵在工具使用技能的積累中起著關鍵作用,使代理能夠廣泛接觸環境反饋的陌生分佈,伴隨著熵的上升趨勢。隨著訓練的推進,自模仿得到加強,以利用回放經驗中的現有成功模式進行比較性的動作層面探索,加速解決方案的迭代,而不會導致無界的熵增長。為了進一步穩定訓練,我們重新校準回放緩存中經驗的優勢,以應對潛在的策略漂移。在軌跡層面的熵控制中引入了正則化措施,如對概率與優勢之間高協方差的token進行裁剪,以抑制過度自信。
得益於Dense O2O和MAL的簡潔高效,DEIM已成為實時DETR的主流訓練框架,顯著超越了YOLO系列。在本研究中,我們通過引入DINOv3特徵對其進行擴展,形成了DEIMv2。DEIMv2涵蓋了從X到Atto的八種模型規模,適用於GPU、邊緣設備及移動端部署。針對X、L、M和S版本,我們採用了DINOv3預訓練或蒸餾的骨幹網絡,並引入了空間調適適配器(STA),它能高效地將DINOv3的單尺度輸出轉化為多尺度特徵,並以細粒度細節補充強語義信息,從而提升檢測性能。對於超輕量級模型(Nano、Pico、Femto和Atto),我們採用深度與寬度剪枝的HGNetv2,以滿足嚴格的資源限制。結合簡化的解碼器和升級版的Dense O2O,這一統一設計使DEIMv2在多樣化場景中實現了卓越的性能成本比,創下了新的技術標杆。特別值得一提的是,我們最大的模型DEIMv2-X僅需5030萬參數便達到了57.8 AP,超越了此前需要超過6000萬參數才能達到56.5 AP的X級別模型。在緊湊型方面,DEIMv2-S成為首個參數少於1000萬(971萬)卻在COCO上突破50 AP里程碑的模型,達到50.9 AP。即便是僅有150萬參數的超輕量級DEIMv2-Pico,也能提供38.5 AP,與參數多出約50%的YOLOv10-Nano(230萬)持平。我們的代碼及預訓練模型已公開於https://github.com/Intellindust-AI-Lab/DEIMv2。
我們推出X-Streamer,這是一個端到端的多模態人類世界建模框架,旨在構建能夠在單一統一架構內實現文本、語音和視頻無限交互的數字人類代理。從單一肖像出發,X-Streamer支持由流式多模態輸入驅動的實時、開放式視頻通話。其核心是一個Thinker-Actor雙變換器架構,統一了多模態理解與生成,將靜態肖像轉化為持久且智能的視聽交互。Thinker模塊感知並推理流式用戶輸入,而其隱藏狀態由Actor模塊實時轉化為同步的多模態流。具體而言,Thinker利用預訓練的大型語言-語音模型,而Actor則採用分塊自回歸擴散模型,該模型交叉關注Thinker的隱藏狀態,以生成時間對齊的多模態響應,其中交織著離散的文本和音頻標記以及連續的視頻潛在表示。為了確保長時程穩定性,我們設計了跨塊和塊內注意力機制,配備時間對齊的多模態位置嵌入,以實現細粒度的跨模態對齊和上下文保留,並通過分塊擴散強制和全局身份參考進一步強化。X-Streamer在兩塊A100 GPU上實時運行,支持從任意肖像開始的長時間一致視頻聊天體驗,為交互式數字人類的統一世界建模鋪平道路。
高效處理高分辨率圖像對於現實世界的視覺語言應用至關重要。然而,現有的大型視覺語言模型(LVLMs)由於視覺標記數量龐大,產生了大量的計算開銷。隨著“圖像思維”模型的出現,推理現在已從文本領域擴展到視覺領域。這一能力促使我們開發了兩階段的“粗到細”推理管道:首先,對下采樣的圖像進行分析,以識別與任務相關的區域;然後,僅對這些區域進行全分辨率裁剪,並在後續推理階段進行處理。這種方法在保留必要細粒度視覺細節的同時,降低了計算成本。一個主要挑戰在於推斷哪些區域真正與給定查詢相關。最近相關方法在輸入圖像下采樣後的第一階段往往失敗,這是由於感知驅動的推理需要清晰的視覺信息才能有效進行。為解決這一問題,我們提出了ERGO(高效推理與引導觀察),它執行推理驅動的感知,利用多模態上下文來確定關注點。我們的模型能夠考慮感知不確定性,擴展裁剪區域以覆蓋視覺模糊區域來回答問題。為此,我們在強化學習框架中開發了簡單而有效的獎勵組件,用於粗到細的感知。在多個數據集上,我們的方法比原始模型和競爭方法提供了更高的準確性,並且效率更高。例如,ERGO在V*基準上超越了Qwen2.5-VL-7B 4.7分,同時僅使用了23%的視覺標記,實現了3倍的推理加速。代碼和模型可在以下網址找到:https://github.com/nota-github/ERGO。
现有的大多数指代分割方法仅通过微调或组合多个预训练模型来实现强劲性能,这往往以额外的训练和架构修改为代价。与此同时,大规模生成扩散模型编码了丰富的语义信息,使其作为通用特征提取器颇具吸引力。在本研究中,我们提出了一种新方法,直接利用扩散变换器中的特征——注意力分数——进行下游任务,既无需架构修改,也无需额外训练。为了系统评估这些特征,我们扩展了基准测试,涵盖了图像与视频的视觉-语言基础任务。我们的核心洞见是,停用词充当了注意力磁铁:它们积累过剩的注意力,可通过过滤来减少噪声。此外,我们识别出在深层出现的全局注意力汇聚点(GAS),并证明它们可以被安全地抑制或重定向到辅助标记上,从而获得更清晰、更准确的基础映射。我们进一步提出了一种注意力再分配策略,其中附加的停用词将背景激活分割成更小的簇,产生更清晰、更局部化的热图。基于这些发现,我们开发了RefAM,一个无需训练的简单基础框架,它结合了交叉注意力图、GAS处理及再分配。在零样本指代图像与视频分割基准测试中,我们的方法持续超越先前的方法,无需微调或额外组件,便确立了新的技术标杆。
基於擴散模型的文本引導圖像編輯已取得顯著品質,但卻因過高的延遲而阻礙了其實際應用。我們提出了FlashEdit,這是一個旨在實現高保真、實時圖像編輯的新穎框架。其效率源自三大關鍵創新:(1) 一步式反轉與編輯(OSIE)流程,繞過了耗時的迭代過程;(2) 背景保護(BG-Shield)技術,通過僅在編輯區域內選擇性修改特徵,確保背景得以保留;(3) 稀疏化空間交叉注意力(SSCA)機制,通過抑制語義向背景的洩漏,確保精確、局部化的編輯。大量實驗表明,FlashEdit在保持優異的背景一致性和結構完整性的同時,能在0.2秒內完成編輯,相比於先前的多步方法,速度提升了超過150倍。我們的代碼將公開於https://github.com/JunyiWuCode/FlashEdit。
開發能夠跨語言有效運作且保持文化根基的人工智慧系統,是一項長期存在的挑戰,特別是在資源匱乏的環境中。合成數據提供了一條有前景的途徑,但其在多語言和多文化背景下的有效性仍未得到充分探索。我們通過一種自下而上的生成策略,研究了為印度語言創建和評估合成、文化情境化數據集的影響,該策略促使大型開源語言模型(參數≥235B)基於特定語言的維基百科內容進行數據生成。這種方法補充了從高資源語言(如英語)翻譯合成數據集的主導自上而下範式。我們介紹了Updesh,這是一個高質量的大規模合成指令跟隨數據集,包含13種印度語言的950萬個數據點,涵蓋了多樣化的推理和生成任務,並強調長上下文、多輪對話能力以及與印度文化背景的對齊。通過結合自動化指標和人工註釋的全面評估,在10,000次評估中表明生成的數據質量高;然而,人工評估也指出了進一步改進的空間。此外,我們通過在我們的數據集上微調模型並在15個多樣化的多語言數據集上評估性能,進行了下游評估。在Updesh上訓練的模型在生成任務上持續取得顯著提升,並在多項選擇式自然語言理解任務中保持競爭力。值得注意的是,相對改進在低資源和中等資源語言中最為顯著,縮小了它們與高資源語言之間的差距。這些發現提供了實證證據,表明有效的多語言人工智慧需要多方面的數據策劃和生成策略,這些策略應包含情境感知、文化根基的方法論。
自回归(AR)变换器已成为视觉生成领域的一股强大力量,这主要归功于其可扩展性、计算效率以及与语言和视觉相统一的架构。其中,下一代尺度预测视觉自回归生成(VAR)最近展示了卓越的性能,甚至超越了基于扩散的模型。在本研究中,我们重新审视了VAR,并揭示了一个理论洞见:当配备马尔可夫注意力掩码时,VAR在数学上等同于离散扩散。我们将这一重新诠释称为“基于离散扩散的可扩展视觉精炼”(SRDD),从而在AR变换器与扩散模型之间建立了一个原则性的桥梁。利用这一新视角,我们展示了如何直接将扩散的优势,如迭代精炼和减少架构低效性,引入VAR,从而实现更快的收敛、更低的推理成本以及改进的零样本重建。在多个数据集上,我们证明了基于扩散视角的VAR在效率和生成方面均带来了持续的提升。
多模態大型語言模型(MLLMs)在將視覺輸入與自然語言輸出對齊方面展現了顯著的能力。然而,生成詞元在多大程度上依賴於視覺模態仍知之甚少,這限制了模型的可解釋性和可靠性。在本研究中,我們提出了EAGLE,一個輕量級的黑箱框架,用於解釋MLLMs中的自回歸詞元生成過程。EAGLE將任何選定的詞元歸因於緊湊的感知區域,同時量化語言先驗和感知證據的相對影響。該框架引入了一個統一充分性(洞察分數)和必要性(必要性分數)的目標函數,通過對稀疏化圖像區域的貪婪搜索進行優化,以實現忠實且高效的歸因。除了空間歸因外,EAGLE還進行模態感知分析,解構詞元依賴的內容,提供模型決策的細粒度可解釋性。在開源MLLMs上的廣泛實驗表明,EAGLE在忠實性、定位和幻覺診斷方面始終優於現有方法,同時顯著減少了GPU內存需求。這些結果凸顯了其在提升MLLMs可解釋性方面的有效性和實用性。代碼可在https://github.com/RuoyuChen10/EAGLE獲取。
儘管擴散模型在圖像生成方面取得了顯著進展,但其輸出仍可能顯得不太真實且缺乏精細細節,尤其是在使用較少的神經函數評估(NFEs)或較低的引導尺度時。為解決這一問題,我們提出了一種新穎的基於動量的採樣技術,稱為歷史引導採樣(HiGS),該技術通過將最近的模型預測整合到每個推理步驟中,從而提升擴散採樣的質量和效率。具體而言,HiGS利用當前預測與過去預測的加權平均之間的差異,來引導採樣過程朝向更真實、細節和結構更佳的輸出。我們的方法幾乎不引入額外計算,並能無縫集成到現有的擴散框架中,既不需要額外訓練,也無需微調。大量實驗表明,HiGS在不同模型和架構下,以及在不同採樣預算和引導尺度下,均能持續提升圖像質量。此外,使用預訓練的SiT模型,HiGS在僅30個採樣步驟(而非標準的250步)下,於256x256的無引導ImageNet生成中,達到了1.61的最新FID紀錄。因此,我們將HiGS作為標準擴散採樣的即插即用增強方案,能夠實現更快且更高保真度的圖像生成。
精確的歷史文獻文字識別技術能大幅推進文化遺產的研究與保存。然而,現有的視覺-語言模型(VLMs)主要針對現代標準化文本設計,無法有效處理歷史材料中多樣的語言與文字、不規則的版面佈局,以及常見的損壞情況。 本文介紹了CHURRO,一個專為歷史文本識別設計的3B參數開源權重視覺-語言模型。該模型基於迄今為止最大的歷史文本識別數據集CHURRO-DS進行訓練。CHURRO-DS整合了155個歷史語料庫,包含99,491頁文獻,跨越22個世紀的文字遺產,涵蓋46種語言群體,包括歷史變體和已消亡的語言。 我們在CHURRO-DS上評估了多個開源與閉源視覺-語言模型及光學字符識別(OCR)系統,發現CHURRO在所有視覺-語言模型中表現最佳。在CHURRO-DS測試集上,CHURRO在印刷體和手寫體上分別達到了82.3%和70.1%的標準化Levenshtein相似度,分別比第二名的Gemini 2.5 Pro高出1.4%和6.5%,同時成本效益高出15.5倍。 通過公開模型與數據集,我們期望能促進社群驅動的研究,提升歷史文本的可讀性,並加速學術研究進程。
尽管基于Transformer的模型在语言建模方面展现了卓越的性能,但其高复杂性导致在处理长上下文时成本高昂。相比之下,诸如线性注意力机制和状态空间模型等循环神经网络(RNNs)因其每标记的恒定复杂度而广受欢迎。然而,这些循环模型在需要从长上下文中准确回忆上下文信息的任务上表现不佳,因为所有上下文信息都被压缩到一个恒定大小的循环状态中。先前的研究表明,回忆能力与循环状态的大小呈正相关,但直接训练具有更大循环状态的RNNs会导致高昂的训练成本。本文中,我们介绍了StateX,一种通过后训练有效扩展预训练RNNs状态的训练流程。针对线性注意力机制和状态空间模型这两类流行的RNNs,我们设计了后训练架构修改,以在不增加或仅轻微增加模型参数的情况下扩大状态规模。在参数高达1.3B的模型上的实验表明,StateX有效提升了RNNs的回忆能力和上下文学习能力,而不会产生高昂的后训练成本或损害其他能力。
現有的文本到視頻檢索系統主要採用嵌入模型進行特徵提取,並通過計算餘弦相似度來進行排序。然而,這種設計存在兩個局限性。低質量的文本-視頻數據對可能會影響檢索效果,但卻難以識別和檢查。僅靠餘弦相似度無法對排序結果提供解釋,限制了可解釋性。我們提出疑問:能否解釋排序結果,從而評估檢索模型並檢查文本-視頻數據?本研究提出了X-CoT,這是一個基於大型語言模型(LLM)推理的可解釋檢索框架,取代了基於嵌入模型的相似度排序。我們首先擴展現有的基準數據集,增加視頻註釋以支持語義理解並減少數據偏差。我們還設計了一個包含成對比較步驟的檢索推理鏈(CoT),生成詳細的推理過程和完整的排序結果。X-CoT在實驗中提升了檢索性能,並產生了詳細的推理依據。它還促進了模型行為和數據質量的分析。代碼和數據可在以下網址獲取:https://github.com/PrasannaPulakurthi/X-CoT。
基於人類反饋的強化學習(RLHF)與基於可驗證獎勵的強化學習(RLVR)是大型語言模型(LLM)後訓練階段採用的主要強化學習範式,各自具備獨特優勢。然而,RLHF因依賴缺乏明確標準的人類判斷,在可解釋性和獎勵欺詐方面面臨挑戰;而RLVR則因其專注於基於正確性的驗證器,在應用範圍上受到限制。我們提出了一種基於二元靈活反饋的強化學習(RLBFF),它結合了人類驅動偏好的多樣性與基於規則驗證的精確性,使獎勵模型能夠捕捉超越單純正確性的回應質量細微之處。RLBFF從自然語言反饋中提取可二元回答的原則(例如,信息準確性:是,或代碼可讀性:否),這些原則隨後可用於將獎勵模型訓練作為一個蘊含任務(回應滿足或不滿足任意原則)。我們展示,在數據匹配的情況下,以此方式訓練的獎勵模型能夠超越Bradley-Terry模型,並在RM-Bench(86.2%)和JudgeBench(81.4%,截至2025年9月24日位居榜首)上取得頂尖性能。此外,與Bradley-Terry模型不同,用戶可在推理時指定感興趣的原則,以定制我們獎勵模型的關注點。最後,我們提供了一套完全開源的方案(包括數據),利用RLBFF和我們的獎勵模型對齊Qwen3-32B,使其在MT-Bench、WildBench和Arena Hard v2等通用對齊基準上匹配或超越o3-mini和DeepSeek R1的性能(推理成本低於5%)。
電腦輔助設計(CAD)是工業原型設計的基礎組成部分,其中模型並非由原始座標定義,而是通過草圖和擠出等建構序列來定義。這種序列結構既支持高效的原型初始化,也便於後續編輯。文本引導的CAD原型設計,將文本到CAD生成與CAD編輯統一起來,有潛力簡化整個設計流程。然而,先前的研究尚未探索這一設定,主要是因為標準的大型語言模型(LLM)分詞器將CAD序列分解為自然語言詞片段,未能捕捉到原始級別的CAD語義,阻礙了注意力模組對幾何結構的建模。我們推測,與CAD的原始和結構特性相契合的多模態分詞策略,能提供更有效的表示。為此,我們提出了CAD-Tokenizer,這是一個利用基於序列的VQ-VAE(帶有原始級別池化和約束解碼)來表示CAD數據的框架,該框架使用模態特定的標記。這一設計產生了緊湊、原始感知的表示,與CAD的結構特性相吻合。應用於統一的文本引導CAD原型設計時,CAD-Tokenizer顯著提升了指令遵循和生成質量,在定量和定性表現上均優於通用LLM及特定任務基線。
基於相機測量序列的三維物體定位對於安全關鍵的監控任務至關重要,例如基於無人機的野火監測。通常,利用相機檢測到的物體定位可以通過密集深度估計或三維場景重建來解決。然而,在遠距離物體或受可用計算資源限制的任務背景下,這兩種方案都不可行。本文中,我們展示了該任務可以通過粒子濾波器來解決,適用於單目標和多目標場景。該方法通過三維模擬和基於全球導航衛星系統(GNSS)的相機姿態估計的無人機圖像分割序列進行了研究。結果表明,在這些其他解決方案失效的情況下,粒子濾波器可以基於相機姿態和圖像分割來解決實際的定位任務。粒子濾波器獨立於檢測方法,使其對新任務具有靈活性。該研究還證明了基於無人機的野火監測可以通過所提出的方法與現有的圖像分割模型相結合來進行。
函数调用是大型语言模型的核心能力,对于AI代理至关重要。现有的基准测试,如伯克利函数调用排行榜(BFCL)、tau^2-Bench(arXiv:2506.07982)和ACEBench(arXiv:2501.12851),主要评估参数的正确性,但并未测试对参数描述中嵌入的格式指令的遵循情况,例如将值用双引号括起或使用ISO日期格式。 我们引入了IFEval-FC,这是一个受IFEval(arXiv:2311.07911)启发的基准测试,旨在评估函数调用中的精确指令遵循。IFEval-FC直接在JSON模式描述中编码可验证的格式,例如指定值不得包含标点符号。它包含750个测试案例,每个案例由一个函数及其输入参数中嵌入的格式以及相应的用户查询组成。评估完全基于算法,确保了客观性、可重复性和可扩展性。 我们的结果表明,即使是包括GPT-5和Claude 4.1 Opus在内的最先进的专有模型,也经常未能遵循基本的格式规则,这突显了现实世界代理系统的一个实际限制。完整的代码库和数据已公开在https://github.com/Skripkon/IFEval-FC。