每日精選AI研究論文及翻譯
我們提出了QeRL,一個量化增強型強化學習框架,專為大型語言模型(LLMs)設計。雖然強化學習對於提升LLMs的推理能力至關重要,但其資源消耗巨大,需要大量的GPU記憶體和長時間的rollout階段。QeRL通過結合NVFP4量化與低秩適應(LoRA)技術,有效加速了強化學習的rollout階段,同時降低了記憶體開銷。除了效率提升外,我們的研究發現量化噪聲增加了策略的熵,從而增強了探索能力,使在強化學習過程中能夠發現更優策略。為了進一步優化探索,QeRL引入了自適應量化噪聲(AQN)機制,該機制在訓練過程中動態調整噪聲。實驗結果顯示,QeRL在rollout階段實現了超過1.5倍的加速。此外,這是首個能夠在單個H100 80GB GPU上進行32B LLM強化學習訓練的框架,同時為強化學習訓練帶來了整體的加速。與16位LoRA和QLoRA相比,QeRL實現了更快的獎勵增長和更高的最終準確率,並在7B模型上與全參數微調在數學基準測試如GSM8K(90.8%)和MATH 500(77.4%)上的表現相當。這些成果確立了QeRL作為LLMs強化學習訓練的高效且有效的框架地位。
潛在生成建模,其中預訓練的自動編碼器將像素映射到擴散過程的潛在空間,已成為擴散變壓器(DiT)的標準策略;然而,自動編碼器組件幾乎沒有進化。大多數DiT仍然依賴於原始的VAE編碼器,這引入了幾個限制:過時的骨幹網絡損害了架構的簡潔性,低維潛在空間限制了信息容量,以及純基於重建的訓練導致的弱表示,最終限制了生成質量。在本研究中,我們探索用預訓練的表示編碼器(如DINO、SigLIP、MAE)配以訓練好的解碼器來替代VAE,形成我們所稱的表示自動編碼器(RAE)。這些模型不僅提供了高質量的重建,還具備語義豐富的潛在空間,同時允許基於變壓器的可擴展架構。由於這些潛在空間通常具有高維度,一個關鍵挑戰是使擴散變壓器能在其中有效運作。我們分析了這一困難的來源,提出了理論上合理的解決方案,並通過實驗驗證了它們。我們的方法在不依賴輔助表示對齊損失的情況下實現了更快的收斂。使用配備輕量級、寬DDT頭的DiT變體,我們在ImageNet上取得了強勁的圖像生成結果:256x256分辨率下無指導的FID為1.51,256x256和512x512分辨率下有指導的FID均為1.13。RAE提供了明顯的優勢,應成為擴散變壓器訓練的新標準。
自回歸(AR)模型仍然是自然語言生成的標準方法,但由於嚴格的序列解碼,仍然存在高延遲的問題。最近受擴散模型啟發的方法,如LlaDA和Dream,通過並行生成來緩解這一問題,但它們面臨兩個核心限制:信息丟失,因為在每一步中未最終確定的預測分佈被丟棄;以及過早承諾,即在沒有充分全局協調的情況下做出局部決策。我們引入了潛在精煉解碼(LRD),這是一個包含潛在精煉和預測反饋循環的兩階段框架。第一階段將掩碼位置保持為預測詞元和掩碼嵌入的分佈混合,使模型能夠建立更全局一致的信念。第二階段逐步確定自信的詞元,同時保留不確定的詞元以進行迭代反饋。KL散度動態為收斂和早期停止提供了原則性和可靠的標準。在編碼(HumanEval +6.3,MBPP +2.6)和推理(GSM8K +2.9,MATH500 +3.8)的實驗中,LRD在提高準確性的同時,實現了高達10.6倍的加速,使其成為並行序列生成的一個強大且多功能的替代方案。
近期,多模态大语言模型(MLLMs)在视频理解领域取得了显著进展,展现出巨大的潜力。然而,现有的基准测试未能全面评估跨音频和视觉模态的协同推理能力,往往忽视其中一种模态或以逻辑不一致的方式整合它们。为填补这一空白,我们推出了OmniVideoBench,这是一个大规模且精心设计的基准测试,专门用于评估协同的视听理解能力,特别强调模态互补性和逻辑一致性。具体而言,OmniVideoBench包含1000个高质量的问题-答案(QA)对,每个问题都附有逐步推理轨迹,这些数据源自628段时长从几秒到30分钟不等的多样化视频,并经过人工验证以确保完全正确性和唯一性。此外,OmniVideoBench涵盖了13种精心设计的问题类型,包括时间推理、空间定位、计数、因果推理、摘要等,从而捕捉视频理解的核心挑战。在OmniVideoBench上对多个MLLMs的评估显示,模型性能与人类推理之间存在显著差距,开源模型明显落后于闭源模型,这凸显了真正视听推理的内在难度。我们将发布OmniVideoBench,以促进具有更强且更通用推理能力的MLLMs的发展。
可驗證獎勵的強化學習(RLVR)近期作為提升大型語言模型(LLMs)推理能力的一種有前景框架而嶄露頭角。然而,基於二元驗證優化的策略易於忽視推理軌跡中潛在的寶貴探索。考慮到黃金過程獎勵模型(PRMs)的高昂標註成本,近期研究嘗試利用輔助信號對過程令牌進行獎勵塑形,包括從logit空間收集的熵和似然度。在本研究中,我們提供了一種新穎視角,即從潛在空間導出的流動獎勵來塑造RLVR,並提出了RLFR,其中模型的潛在流動場由離策略高質量數據和策略內拒絕採樣數據構建,並量化策略潛在在其中的速度偏差作為獎勵信號。RLFR首次證明,一個完善的流動場可以作為收集獎勵信號的良好環境,強調了表達性潛在空間的未充分探索性。此外,RLFR能夠壓縮任何離策略專家數據作為構成獎勵信號的參考,我們展示了隱藏狀態中壓縮的高效上下文依賴性被利用,而非單一令牌級別的表示來理解上下文。在語言和多模態推理基準上的實驗證明了流動獎勵的可靠性,並為利用輔助信號進行獎勵塑形提出了一種有前景的範式。
尽管可验证奖励的强化学习(RLVR)已大幅提升了大规模视觉语言模型(LVLMs)的推理能力,但现有的大多数多模态推理方法却忽视了视觉感知在RLVR优化过程中的关键作用。本文从新颖的令牌感知视角出发,首次对多模态RLVR进行了探索性研究,该视角衡量了每个生成令牌对视觉的依赖程度。通过对思维链(CoT)过程的细致分析,我们揭示了两点关键发现:其一,在一条轨迹中,令牌感知呈稀疏分布,仅有少数令牌对视觉依赖度高,以支持基于视觉的推理;其二,不同轨迹在整体视觉依赖性上表现出显著差异。基于这些观察,我们提出了视觉感知策略优化(VPPO),这是一种新颖的策略梯度算法,它明确利用令牌感知来精炼学习信号。具体而言,VPPO通过双重机制实现这一点:一是根据轨迹的整体视觉依赖性重新加权其优势;二是仅针对感知上至关重要的令牌进行策略更新。在一套包含八个感知与推理基准的全面测试中,VPPO相较于领先的开源RL调优模型展现了显著优势,其有效性在7B和32B模型规模上均得到了一致验证。我们的研究不仅为分析多模态RLVR建立了一个新的令牌级感知视角,还提出了一种新颖且有效的优化策略,显著增强了LVLMs的多模态推理能力。
通用SVG建模因数据集碎片化、方法跨任务迁移性有限以及处理结构复杂性的难度而持续面临挑战。为此,我们利用多模态大语言模型(MLLMs)强大的迁移与泛化能力,实现了对SVG理解、编辑与生成的统一建模。我们推出了InternSVG系列,一个集数据、基准与模型于一体的套件。其核心是SAgoge,这是迄今为止规模最大、涵盖最广的SVG任务多模态数据集,囊括静态图形与动态动画。它覆盖了图标、长序列插图、科学图表及动态动画,支持不同难度级别的任务,并提供了比以往数据集更深层次的属性结构。基于这一资源,我们引入了SArena,一个配套的基准测试,其任务定义全面,评估标准统一,与SAgoge所覆盖的领域及难度谱系相匹配。在此基础上,我们提出了InternSVG,一个统一的MLLM,专为SVG理解、编辑与生成设计,具备SVG专用特殊标记、基于子词的嵌入初始化,以及从短静态SVG逐步过渡到长序列插图和复杂动画的两阶段训练策略。这一统一框架促进了正向迁移,提升了整体性能。在SArena及先前基准上的实验证实,InternSVG取得了显著进步,并持续超越领先的开源与专有模型。
近期,代理强化学习(agentic RL)的兴起展示了RL同样能有效提升大型语言模型(LLMs)的代理推理能力,然而其关键设计原则与最佳实践仍不明确。在本研究中,我们从数据、算法及推理模式三个核心视角出发,进行了全面而系统的探索,以揭示强化学习在代理推理中的奥秘。我们提炼出以下关键洞见:(i) 用真实的端到端工具使用轨迹替代拼接的合成轨迹,能显著强化监督微调(SFT)的初始化效果;高多样性、模型感知的数据集支撑探索,并大幅提升RL性能。(ii) 探索友好型技术对代理RL至关重要,如采用更高的奖励裁剪、过长的奖励塑形,以及保持适当的策略熵,均可提升训练效率。(iii) 采用较少工具调用的深思熟虑策略,优于频繁工具调用或冗长的自我推理,提高了工具使用效率及最终准确性。综合这些简单实践,我们一致性地增强了代理推理与训练效率,在挑战性基准测试中,使用较小模型取得了强劲成果,为未来代理RL研究奠定了实用基准。除了这些实证洞见,我们还贡献了一个高质量的、真实的端到端代理SFT数据集及一个高质量的RL数据集,并在包括AIME2024/AIME2025、GPQA-Diamond和LiveCodeBench-v6在内的四个挑战性基准上,验证了我们洞见在提升LLMs代理推理能力方面的有效性。遵循我们的方法,4B规模的模型也能在代理推理性能上超越32B规模的模型。代码与模型详见:https://github.com/Gen-Verse/Open-AgentRL。
在本研究中,我們提出了DiT360,這是一個基於DiT的框架,旨在通過對透視圖和全景圖數據進行混合訓練來生成全景圖像。針對生成質量中幾何保真度和照片真實感的問題,我們將主要原因歸結於缺乏大規模、高質量的真實世界全景數據,這種以數據為中心的視角與以往專注於模型設計的方法有所不同。DiT360主要包含幾個關鍵模塊,用於域間轉換和域內增強,這些模塊應用於VAE前的圖像層面和VAE後的token層面。在圖像層面,我們通過透視圖引導和全景圖精煉來融入跨域知識,這不僅提升了感知質量,還規範了多樣性和照片真實感。在token層面,混合監督被應用於多個模塊,包括用於邊界連續性的循環填充、用於旋轉魯棒性的偏航損失,以及用於畸變感知的立方體損失。在文本到全景圖、圖像修復和圖像擴展任務上的大量實驗表明,我們的方法在十一項定量指標上實現了更好的邊界一致性和圖像保真度。我們的代碼可在https://github.com/Insta360-Research-Team/DiT360獲取。
視聽視頻字幕生成旨在產生語義豐富的描述,並實現視覺與聽覺事件之間的時序對齊,從而提升視頻理解與生成的能力。本文介紹了AVoCaDO,這是一個由音頻與視覺模態間時序協調驅動的強大視聽視頻字幕生成器。我們提出了一個兩階段的後訓練流程:(1) AVoCaDO SFT,該階段在新構建的包含107K高質量、時序對齊的視聽字幕數據集上對模型進行微調;(2) AVoCaDO GRPO,該階段利用定制的獎勵函數進一步增強時序連貫性和對話準確性,同時規範字幕長度並減少崩潰現象。實驗結果表明,AVoCaDO在四個視聽視頻字幕生成基準測試中顯著優於現有的開源模型,並且在僅視覺設置下的VDC和DREAM-1K基準測試中也展現了競爭力。
高效利用大型語言模型(LLMs)解決現實世界問題,越來越依賴於其與動態網絡環境互動及自主獲取外部信息的能力。儘管近期如Search-R1和WebDancer等研究在解決網絡任務上展現了強勁性能,但它們高度依賴額外工具將互動式網絡環境轉化為靜態文本內容。這與人類瀏覽行為形成對比,後者涉及與瀏覽器的多樣化互動,如滾動、點擊和輸入。本文提出BrowserAgent,一個更具互動性的代理,通過模仿人類瀏覽器操作來解決複雜任務。BrowserAgent直接通過Playwright對原始網頁進行操作,利用一系列預定義的瀏覽器動作。我們採用兩階段訓練(監督微調(SFT)和拒絕微調(RFT))來提升模型的泛化能力。儘管使用的訓練數據量遠少於Search-R1,BrowserAgent在不同開放問答任務上取得了更具競爭力的結果。此外,我們引入了一種顯式記憶機制,用於跨步驟存儲關鍵結論,進一步增強了模型在長時序任務中的推理能力。值得注意的是,BrowserAgent-7B在多跳問答任務如HotpotQA、2Wiki和Bamboogle上,相比Search-R1實現了約20%的提升。這些結果表明,BrowserAgent可以作為一個更先進的框架,用於構建更具互動性和可擴展性的網絡代理。
大型語言模型(LLM)代理在處理複雜的多輪工具使用任務中展現出巨大潛力,但其發展常受制於高質量訓練數據的極度稀缺。基於合成數據的監督微調(SFT)容易導致過擬合,而標準的強化學習(RL)則面臨嚴重的冷啟動問題和訓練不穩定性。為應對這些挑戰,我們引入了環境調諧這一新穎的訓練範式,使代理能夠直接從問題實例中學習複雜行為,而無需依賴預先收集的專家軌跡。環境調諧通過結構化的課程安排、提供糾正性反饋的可操作環境增強,以及精細化的進度獎勵來協調這一學習過程,確保穩定且高效的探索。僅使用來自伯克利函數調用排行榜(BFCL)基準的400個問題實例,我們的方法不僅在分佈內性能上與強基線競爭,還展示了優異的分佈外泛化能力,克服了基於SFT方法常見的性能崩潰問題。我們的工作標誌著從基於靜態軌跡的監督微調向動態、基於環境的探索範式轉變,為訓練更為穩健且數據高效的代理鋪平了道路。
近期,代理工作流的進展已實現了專業文件生成等任務的自動化。然而,這些方法主要關注文本質量,忽略了視覺結構和風格,而這些對於可讀性和吸引力至關重要。這一差距主要源於缺乏合適的獎勵模型來引導代理工作流生成具有更強結構和風格質量的文件。為此,我們提出了DocReward,這是一個基於文件結構和風格進行評估的文件獎勵模型。我們構建了一個多領域數據集DocPair,包含117K對文件,涵蓋32個領域和267種文件類型,每對文件包含內容相同但結構和風格不同的高專業性和低專業性文件。這使得模型能夠全面且獨立於文本質量地評估專業性。DocReward使用Bradley-Terry損失進行訓練,以對文件進行評分,並懲罰與註釋排名相矛盾的預測。為了評估獎勵模型的性能,我們創建了一個測試數據集,其中包含由受過良好教育的人類評估者排名的文件集。值得注意的是,DocReward在準確性上分別比GPT-4o和GPT-5高出30.6和19.4個百分點,展示了其相對於基線模型的優越性。在文件生成的外部評估中,DocReward獲得了顯著更高的勝率60.8%,而GPT-5的勝率為37.7%,這表明其在引導生成代理生成人類偏好的文件方面具有實用性。
雖然大型語言模型(LLM)代理能夠規劃多步驟任務,但在執行任何行動之前於規劃階段進行干預,通常是防止危害的最安全方式,因為某些風險一旦執行可能導致嚴重後果。然而,現有的防護機制大多在執行後才運作,這難以擴展且幾乎無法在計劃層面進行可控的監督。為應對這一挑戰,我們指出了當前研究中的三個關鍵缺口:數據缺口、模型缺口和評估缺口。為填補數據缺口,我們引入了AuraGen,這是一個可控的引擎,它(i)合成良性軌跡,(ii)注入具有校準難度的類別標記風險,以及(iii)通過自動獎勵模型過濾輸出,從而為執行前安全生成大量可靠的語料庫。為填補守護模型缺口,我們提出了基礎防護機制Safiron,它結合了跨規劃適配器和緊湊的守護模型。適配器統一了不同的輸入格式,而Safiron則標記風險案例、分配風險類型並生成理由;通過廣泛探索的數據配方進行兩階段訓練,Safiron實現了跨設置的穩健遷移。為填補評估缺口,我們發布了Pre-Exec Bench,這是一個涵蓋多樣化工具和分支軌跡的現實基準,它在人類驗證的場景中測量檢測、細粒度分類、解釋和跨規劃泛化能力。大量實驗表明,所提出的防護機制在Pre-Exec Bench上相較於強基線取得了持續的增益,而消融實驗進一步提煉了可操作的做法,為更安全的代理系統提供了實用模板。
近年來,大型語言模型(LLMs)與智能代理的研究焦點已逐漸從展示新穎能力轉向複雜推理與應對挑戰性任務。然而,現有的評估主要集中於數學/編程競賽或一般性任務,而現有的多領域學術基準則缺乏足夠的推理深度,使得該領域缺乏針對高階推理的嚴謹基準。為填補這一空白,我們引入了Acadreason基準,旨在評估LLMs與智能代理獲取並基於學術知識進行推理的能力。該基準由50個專家註釋的學術問題組成,涵蓋計算機科學、經濟學、法學、數學及哲學五個高推理領域。所有問題均源自近年來頂級出版物,並經過嚴格的註釋與質量控制,以確保其既具挑戰性又可解答。我們對超過10種主流LLMs與智能代理進行了系統性評估。結果顯示,大多數LLMs得分低於20分,即便是最先進的GPT-5也僅獲得16分。雖然智能代理得分較高,但無一超過40分。這表明當前LLMs與智能代理在超智能學術研究任務中的能力差距,並凸顯了Acadreason的挑戰性。
通过可验证语言如Lean解决数学问题,已对数学与计算机科学界产生了深远影响。当前最先进的模型通常采用昂贵的在线强化学习(RL)或专家迭代进行训练。然而,这些方法依赖于固定的问题集,导致训练效率低下,并限制了模型处理复杂问题的能力。为克服这些局限,我们提出了GAR:生成对抗性强化学习,一个全面的RL训练框架,它在一个对抗循环中联合训练问题构建者与解决者。GAR引入了一种隐式课程学习机制,使任务难度与证明者能力的演进相匹配,从而提高了训练效率,并增强了证明高级定理的能力。实验表明,经过GAR训练,Goedel-Prover-V2-8B和DeepSeek-Prover-V2-7B在MiniF2F-Test基准上的pass@32平均相对提升了4.20%,而DeepSeek-Prover-V2在ProofNet-Test上的pass@32从22.58%提升至25.81%。除了形式化证明之外,GAR还建立了一个通用的RL范式,用于在可验证环境下实现问题生成与解决的协同进化。
數學推理是大型語言模型(LLMs)智能的主要指標。然而,現有的LLMs在魯棒性和泛化能力方面存在不足。本文將這些缺陷歸因於虛假推理,即從表面特徵生成答案。為應對這一挑戰,我們提出了AdaR框架,以實現自適應推理,使模型依賴於問題解決邏輯來產生答案。AdaR通過改變變量值來合成邏輯等價的查詢,並利用RLVR在這些數據上訓練模型,以懲罰虛假邏輯,同時鼓勵自適應邏輯。為提高數據質量,我們從原始查詢中提取問題解決邏輯,並通過代碼執行生成相應答案,然後進行合理性檢查。實驗結果表明,AdaR提升了魯棒性和泛化能力,在數學推理方面取得了顯著進步,同時保持了高數據效率。分析表明,數據合成和RLVR協同作用,促進了LLMs中的自適應推理。後續分析得出了關鍵設計洞察,涉及關鍵因素的影響以及對LLMs指令的適用性。我們的項目可在https://github.com/LaiZhejian/AdaR獲取。
通用會計準則(GAAP)的複雜性以及可擴展商業報告語言(XBRL)申報文件的層級結構,使得財務審計的自動化與驗證變得日益困難。儘管大型語言模型(LLMs)在非結構化文本理解方面展現了強大的能力,但其在處理結構化、相互依賴且基於分類標準的財務文件時的推理能力仍未被充分探索。為填補這一空白,我們提出了FinAuditing,這是首個針對財務審計任務評估LLMs的分類標準對齊、結構感知、多文件基準測試。FinAuditing基於真實的美國GAAP合規XBRL申報文件構建,定義了三個互補的子任務:FinSM用於語義一致性,FinRE用於關係一致性,FinMR用於數值一致性,每個子任務針對結構化審計推理的不同方面。我們進一步提出了一個統一的評估框架,整合了這些子任務中的檢索、分類和推理指標。在13個最先進的LLMs上進行的廣泛零樣本實驗顯示,當前模型在語義、關係和數學維度上的表現不一致,當推理涉及層級化的多文件結構時,準確率下降高達60-90%。我們的研究結果揭示了現代LLMs在基於分類標準的財務推理中的系統性限制,並確立了FinAuditing作為開發可信、結構感知且符合監管的財務智能系統的基礎。該基準數據集可在Hugging Face上獲取。
儘管已有大量研究致力於利用視覺-語言模型(VLMs)開發具身推理能力,或將先進的VLMs整合至視覺-語言-動作(VLA)模型中,以實現端到端的機器人控制,但鮮有研究直接探討上游基於VLM的推理與下游VLA策略學習之間的重要鴻溝。在本研究中,我們邁出了將具身推理與VLA策略學習相結合的初步步伐,引入了Vlaser——一種具備協同具身推理能力的視覺-語言-動作模型,這是一個旨在為具身智能體整合高層次推理與低層次控制的基礎視覺-語言模型。基於高質量的Vlaser-6M數據集,Vlaser在一系列具身推理基準測試中——包括空間推理、具身接地、具身問答及任務規劃——均達到了最先進的性能。此外,我們系統地考察了不同VLM初始化對監督式VLA微調的影響,為緩解互聯網規模預訓練數據與具身特定策略學習數據之間的領域轉移提供了新穎見解。基於這些見解,我們的方法在WidowX基準測試中取得了最優結果,並在Google Robot基準測試中展現了競爭力。
統一多模態模型整合了大型語言模型的推理能力與圖像理解及生成能力,展現出高級多模態智能的巨大潛力。然而,學術界仍缺乏一個嚴謹的以推理為核心的基準,來系統性地評估理解與生成之間的對齊性,以及它們在複雜視覺任務中的泛化潛力。為此,我們引入了GIR-Bench,這是一個全面的基準,從三個互補的角度評估統一模型。首先,我們探討理解與生成的一致性(GIR-Bench-UGC),即模型是否能在理解與生成任務中一致地利用相同的知識。其次,我們研究模型是否能進行以推理為中心的文本到圖像生成,這需要應用邏輯約束和隱含知識來生成忠實的視覺內容(GIR-Bench-T2I)。第三,我們評估模型是否能在編輯中處理多步推理(GIR-Bench-Edit)。對於每個子集,我們精心設計了針對特定任務的評估流程,這使得評估更加細緻且可解釋,同時減少了現行MLLM-as-a-Judge範式帶來的偏見。對各種統一模型和僅生成系統的廣泛消融實驗表明:儘管統一模型在推理驅動的視覺任務中表現更為出色,但它們在理解與生成之間仍存在持續的差距。GIR-Bench的數據和代碼可在https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}獲取。
近期,文本到视频(T2V)模型在模拟现实世界几何与物理法则的视觉表现上展现了强大的能力,暗示了其作为隐式世界模型的潜力。受此启发,我们探索了利用视频生成先验从给定四维场景中进行视点规划的可行性,因为视频本身伴随着动态场景与自然视点。为此,我们提出了一种两阶段范式,以兼容的方式调整预训练的T2V模型用于视点预测。首先,我们通过一个自适应学习分支将四维场景表示注入预训练的T2V模型中,其中四维场景是视点无关的,而条件生成的视频则视觉上嵌入了视点。接着,我们将视点提取公式化为一个混合条件引导的相机外参去噪过程。具体而言,在预训练的T2V模型上进一步引入了一个相机外参扩散分支,以生成的视频和四维场景作为输入。实验结果表明,我们提出的方法优于现有竞争者,消融研究验证了我们关键技术设计的有效性。在某种程度上,这项工作证明了视频生成模型在现实世界四维交互中的潜力。
擴散式大型語言模型(dLLMs)因其能夠並行解碼多個標記而逐漸成為自回歸模型的高效替代方案。然而,由於其難以處理的對數似然性,使得通過強化學習(RL)將dLLMs與人類偏好或任務特定獎勵對齊變得具有挑戰性,這阻礙了標準策略梯度方法的直接應用。雖然先前的研究使用了如證據下界(ELBO)等替代方法,但這些單邊近似可能會引入顯著的策略梯度偏差。為解決這一問題,我們提出了夾層策略梯度(SPG),該方法同時利用了真實對數似然性的上界和下界。實驗表明,SPG顯著優於基於ELBO或一步估計的基線方法。具體而言,在GSM8K、MATH500、Countdown和Sudoku任務中,SPG相較於最先進的RL方法分別提升了3.6%、2.6%、18.4%和27.0%的準確率。
大型视觉语言模型(LVLMs)通过将视觉编码器(VE)与大型语言模型相结合,已在多种任务中取得了显著成功。然而,LVLMs仍面临诸如物体幻觉等关键挑战,即生成输入图像中并不存在的物体描述。本文认为,视觉编码器内不确定的视觉标记是导致物体幻觉的关键因素。我们的统计分析发现,具有高认知不确定性的视觉标记与幻觉的发生之间存在正相关关系。此外,我们从理论和实证上表明,在早期视觉编码器层中,对微小对抗扰动表现出较大表示偏差的视觉标记,指示了高认知不确定性。基于这些发现,我们提出了一种简单而有效的策略,仅通过修改视觉编码器来缓解物体幻觉。该方法包括一种利用对抗扰动高效识别不确定视觉标记的代理方法,以及一种在视觉编码器中间层的自注意力过程中屏蔽这些不确定视觉标记的方法,从而抑制它们对视觉编码的影响,进而减轻幻觉。大量实验表明,我们的方法显著减少了LVLMs中的物体幻觉,并能与其他现有技术协同工作。
大型語言模型(LLMs)與視覺語言模型(VLMs)在數學推理方面已取得顯著進展,然而在處理需要視覺輔助的問題時,如繪製輔助線或繪製函數圖像來解決問題,仍面臨關鍵瓶頸。大多數LLMs和VLMs受限於僅能進行文本推理鏈,而能夠生成交錯文本與圖像的多模態統一模型則缺乏此類任務所需的精確性和可控性。為此,我們提出了CodePlot-CoT,這是一種代碼驅動的思維鏈範式,用於在數學中“以圖像思考”。我們的方法利用VLM生成文本推理以及可執行的繪圖代碼,隨後將這些代碼渲染成圖像作為“視覺思維”,以解決數學問題。為實現這一目標,我們首先構建了Math-VR,這是首個大規模、雙語的視覺推理數學問題數據集和基準,包含178K個樣本。其次,為創建高質量的訓練數據,我們開發了一種最先進的圖像到代碼轉換器,專門用於將複雜的數學圖形解析為代碼。最後,利用這些訓練數據,我們訓練了CodePlot-CoT模型來解決數學問題。實驗結果顯示,在我們的新基準上,我們的模型相比基礎模型提升了高達21%,充分驗證了我們提出的代碼驅動推理範式的有效性。我們的工作為多模態數學推理開闢了新的方向,並為社區提供了首個大規模數據集、全面的基準以及針對此類問題的強力方法。為促進未來研究,我們將數據集、代碼和預訓練模型公開於https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT。
大型语言模型(LLM)代理已展现出卓越的推理能力。然而,现有的多代理框架往往依赖于固定角色或集中控制,限制了在长期推理中的可扩展性和适应性。我们引入了SwarmSys,一个受群体智能启发的分布式多代理推理闭环框架。在SwarmSys中,协调通过三个专门角色——探索者、工作者和验证者——之间的迭代互动自然涌现,这些角色持续循环于探索、利用和验证之中。为了实现可扩展且自适应的协作,我们整合了自适应代理与事件档案、基于嵌入的概率匹配以及一种受信息素启发的强化机制,支持动态任务分配与无需全局监督的自组织收敛。在符号推理、研究综合及科学编程任务中,SwarmSys均优于基线模型,提升了准确性与推理稳定性。这些发现表明,群体启发的协调作为一种可扩展、鲁棒且自适应的多代理推理范式具有广阔前景,暗示着协调扩展可能成为推动LLM智能发展的另一重要途径,与模型扩展并驾齐驱。
我们提出了稳定视频无限生成技术(Stable Video Infinity, SVI),该技术能够生成具有高度时间一致性、合理场景转换及可控流媒体故事情节的无限长度视频。尽管现有的长视频生成方法试图通过手工设计的抗漂移策略(如改进的噪声调度器、帧锚定)来缓解累积误差,但它们仍局限于单一提示的外推,生成具有重复动作的同质场景。我们认识到,根本挑战不仅在于误差累积,更在于训练假设(观察干净数据)与测试时自回归现实(基于自生成、易出错输出进行条件化)之间的关键差异。为弥合这一假设差距,SVI引入了误差回收微调(Error-Recycling Fine-Tuning),这是一种新型高效训练方法,它将扩散变换器(Diffusion Transformer, DiT)自生成的误差回收为监督提示,从而激励DiT主动识别并纠正自身错误。这一目标通过闭环回收中的误差注入、收集与存储,以及从误差注入反馈中自回归学习来实现。具体而言,我们(i)注入DiT的历史误差以干预干净输入,模拟流匹配中的误差累积轨迹;(ii)通过一步双向积分高效近似预测,并利用残差计算误差;(iii)在离散时间步长上动态将误差存入回放记忆库,这些误差被重新采样用于新输入。SVI能够在无需额外推理成本的情况下,将视频从秒级扩展至无限时长,同时保持与多种条件(如音频、骨架和文本流)的兼容性。我们在三个基准测试上评估了SVI,包括一致性、创造性和条件化设置,全面验证了其多功能性及领先地位。
機器人學習的可擴展性根本上受到現實世界數據收集的高成本和勞動力投入的限制。雖然模擬數據提供了一種可擴展的替代方案,但由於視覺外觀、物理屬性和物體交互之間存在顯著差距,它往往難以泛化到現實世界。為了解決這一問題,我們提出了RoboSimGS,這是一種新穎的Real2Sim2Real框架,能夠將多視角現實世界圖像轉換為可擴展、高保真且具有物理交互性的模擬環境,用於機器人操作。我們的方法採用混合表示來重建場景:3D高斯濺射(3DGS)捕捉環境的逼真外觀,而交互物體的網格基元則確保了精確的物理模擬。關鍵的是,我們率先使用多模態大語言模型(MLLM)來自動創建物理上合理的關節化資產。MLLM分析視覺數據,不僅推斷物體的物理屬性(如密度、剛度),還推斷其複雜的運動學結構(如鉸鏈、滑動軌道)。我們證明,完全基於RoboSimGS生成的數據訓練的策略在多樣化的現實世界操作任務中實現了成功的零樣本模擬到現實的遷移。此外,來自RoboSimGS的數據顯著提升了最先進方法的性能和泛化能力。我們的結果驗證了RoboSimGS作為一種強大且可擴展的解決方案,能夠有效彌合模擬與現實之間的差距。
近期基於Transformer的三維人體網格恢復(HMR)模型雖取得了顯著成效,但由於其深層Transformer架構及冗餘token的存在,往往伴隨著高計算成本與複雜度。本文提出了兩種專為HMR設計的合併策略:誤差約束層合併(ECLM)與掩碼引導token合併(Mask-ToMe)。ECLM選擇性地合併對平均關節位置誤差(MPJPE)影響最小的Transformer層,而Mask-ToMe則專注於合併對最終預測貢獻甚微的背景token。為進一步應對合併可能導致的性能下降,我們提出了一種基於擴散的解碼器,該解碼器融合了時間上下文信息,並利用了從大規模動作捕捉數據集中學習到的姿態先驗。多項基準測試的實驗結果表明,我們的方法在實現最高2.3倍加速的同時,性能相較基線略有提升。
儘管大型語言模型(LLMs)在算法代碼生成方面表現出色,它們在前端開發領域卻面臨挑戰,因為正確性需基於渲染的像素和交互來判斷。我們提出了ReLook,這是一個基於視覺的強化學習框架,賦能代理通過調用多模態大語言模型(MLLM)作為工具,來實現一個穩健的生成-診斷-優化循環。在訓練過程中,代理利用MLLM作為視覺評判者——通過截圖評分代碼——並作為可操作的、基於視覺的反饋來源;對於無效渲染實施嚴格的零獎勵規則,確保渲染可行性並防止獎勵欺詐。為避免行為崩潰,我們引入了強制優化,這是一項嚴格的接受規則,僅允許改進的修訂,從而產生單調遞增的優化軌跡。在推理階段,我們分離評判者,運行一個輕量級、無評判者的自我編輯循環,保持與基礎解碼相當的延遲,同時保留大部分性能提升。在三個廣泛使用的基準測試中,ReLook在基於視覺的前端代碼生成方面持續超越強基準,凸顯了代理感知、視覺獎勵以及訓練-推理解耦的優勢。
語言模型(LM)微調的一種範式依賴於創建大型訓練數據集,其假設是數據的高數量和多樣性將使模型在訓練後能夠泛化到新任務。然而,實際上,收集大量數據效率低下,且對其進行訓練成本高昂;更糟糕的是,無法保證最終模型能夠處理複雜場景或更好地泛化。此外,現有技術很少評估訓練樣本是否提供了新信息,或者是否與模型已獲得的知識重複,從而導致不必要的成本。在本研究中,我們探索了一種新的測試時自我改進方法,以即時創建更有效且更具泛化能力的自主語言模型。所提出的算法可概括為三個步驟:(i) 首先識別模型難以處理的樣本(自我意識),(ii) 然後從檢測到的不確定樣本中生成類似示例(自我數據增強),(iii) 在測試時微調中使用這些新生成的樣本(自我改進)。我們研究了該方法的兩種變體:測試時自我改進(TT-SI),其中同一模型從其自身的不確定案例中生成額外的訓練示例並從中學習,以及測試時蒸餾(TT-D),其中更強的模型為不確定案例生成類似示例,使學生模型能夠通過蒸餾監督進行適應。在不同代理基準上的實證評估表明,TT-SI 在所有基準上平均提升了 +5.48% 的絕對準確率,並超越了其他標準學習方法,同時使用的訓練樣本減少了 68 倍。我們的研究結果凸顯了 TT-SI 的潛力,展示了測試時自我改進算法作為構建更強大代理以實現自我進化的新範式的可能性。
语言模型在通过常规的监督微调(SFT)对与其训练集(如MATH)相似的数据进行训练时,往往表现出极少甚至没有改进(即“饱和”)。我们引入了一种新的微调策略——STAT,利用更强的大型语言模型(LLM)的元认知能力作为教师来训练学生模型。教师使用任务数据集创建任务所需技能列表,并为每个数据点标注其所需技能(Didolkar等,2024)。通过监控学生的答案,教师创建了一个“缺失技能档案”,追踪学生在回答中未能应用每项技能的频率。我们利用这一概念以两种方式构建修改后的训练集。在STAT-Sel中,教师使用现有的训练示例集,但根据缺失技能档案自适应地重新加权。在STAT-Syn中,教师则合成涉及缺失技能的额外示例。在Llama和Qwen模型上的大量实验中,我们的方法在MATH上实现了高达7.5%的提升,而SFT仅带来有限的增益。此外,STAT在分布外基准测试(如AIME24/25、AMC23等)上的表现平均提升了4.6%。关键的是,我们发现STAT与通过GRPO进行的强化学习(RL)是互补的(Shao等,2024):在模型使用STAT解决技能差距后,GRPO继续带来进一步的增益。我们得出结论,针对技能的适应性训练应能广泛提升当前的训练流程。我们的代码可在以下网址获取:https://github.com/princeton-pli/STAT。
我們應如何評估語言模型防禦的魯棒性?當前針對越獄攻擊和提示注入的防禦措施(分別旨在防止攻擊者誘導有害知識或遠程觸發惡意行為),通常僅針對一組靜態的有害攻擊字符串進行評估,或是針對未考慮防禦設計的計算能力較弱的優化方法進行測試。我們認為這種評估過程存在缺陷。 相反,我們應評估防禦措施對抗適應性攻擊者的能力,這些攻擊者會明確調整其攻擊策略以應對防禦設計,並投入大量資源來優化其目標。通過系統性地調整和擴展通用優化技術——梯度下降、強化學習、隨機搜索以及人工引導的探索——我們成功繞過了12種基於多樣化技術的最新防禦措施,其中大多數的攻擊成功率超過90%;值得注意的是,這些防禦措施最初報告的攻擊成功率接近零。我們相信,未來的防禦工作必須考慮更強的攻擊,例如我們所描述的這些,才能做出可靠且令人信服的魯棒性聲明。
比较人类与模型的表现,为理解嵌入模型的优势与局限提供了宝贵的视角,揭示了它们在捕捉意义与细微差别方面的成功与失败之处。然而,此类比较鲜有进行,因为人类在嵌入任务上的表现难以量化。为填补这一空白,我们引入了HUME:文本嵌入的人类评估框架。尽管如MTEB等框架提供了广泛的模型评估,但它们缺乏对人类表现的可靠估计,限制了模型得分的可解释性。我们测量了人类在16个MTEB数据集上的表现,这些数据集涵盖了重排序、分类、聚类及跨语言多样性高、低资源语言的语义文本相似性任务。人类平均表现达到77.6%,而最佳嵌入模型为80.1%,尽管差异显著:模型在某些数据集上接近天花板表现,而在其他数据集上则表现挣扎,暗示了数据集问题并揭示了低资源语言中的不足。我们提供了人类表现的基准、对任务难度模式的洞察,以及一个可扩展的评估框架,该框架不仅使模型解释更具意义,还指导了模型与基准的发展。我们的代码、数据集及排行榜公开于https://github.com/embeddings-benchmark/mteb。
大型推理模型(LRMs)在复杂推理任务上通过生成详细的思维链(CoT)解释取得了令人瞩目的性能。然而,这些响应往往过于冗长,包含冗余的推理步骤,不仅增加了推理成本,还降低了实用性。在不牺牲准确性的前提下控制生成推理的长度,仍是一个未解的挑战。通过系统的实证分析,我们发现不同LRMs在不同推理阶段中,模型熵与响应长度之间存在一致的正相关关系:思维阶段表现出较高的熵,反映了较长响应的探索性行为;而最终答案阶段则显示出较低的熵,表明了一个更为确定的解决方案。这一观察表明,不同推理阶段的熵可以作为平衡简洁性与性能的控制旋钮。基于这一洞见,本文引入了阶段熵感知奖励(PEAR),一种将阶段依赖性熵纳入奖励设计的机制。PEAR不统一对待所有标记,而是在思维阶段惩罚过度的熵,并在最终答案阶段允许适度的探索,从而鼓励模型生成既简洁又保留足够灵活性以正确解决任务的推理轨迹。这使得无需依赖明确的长度目标或严格的截断规则,即可实现响应长度的自适应控制。在四个基准上的广泛实验表明,PEAR在保持模型规模间竞争性准确度的同时,持续减少了响应长度。此外,PEAR在训练分布之外也展现出了强大的分布外(OOD)鲁棒性。我们的代码可在以下网址获取:https://github.com/iNLP-Lab/PEAR。
當一個人工智慧助手記住莎拉是一位身兼兩份工作的單親母親時,它是否會以不同於對待一位富裕高管的方式來解讀她的壓力?隨著個性化AI系統越來越多地融入長期用戶記憶,理解這種記憶如何塑造情感推理變得至關重要。我們通過在經過人類驗證的情感智力測試上評估15個大型語言模型(LLMs),探討了用戶記憶如何影響這些模型的情感智力。我們發現,相同的場景搭配不同的用戶檔案會產生系統性分歧的情感解讀。在經過驗證的用戶獨立情感場景和多樣化的用戶檔案中,幾個表現優異的LLMs出現了系統性偏見,其中優勢群體的檔案獲得了更為準確的情感解讀。此外,LLMs在情感理解和支持性建議任務中展現出顯著的跨人口統計因素差異,這表明個性化機制可能將社會階層嵌入模型的情感推理之中。這些結果凸顯了記憶增強型AI面臨的一個關鍵挑戰:旨在實現個性化的系統可能無意中加劇了社會不平等。
視頻擴散模型中的直覺物理理解在構建通用且物理合理的世界模擬器中扮演著至關重要的角色,然而,由於在生成過程中難以將物理正確性與視覺外觀分離,準確評估此類能力仍是一項具有挑戰性的任務。為此,我們引入了LikePhys,這是一種無需訓練的方法,通過在精心策劃的有效-無效視頻對數據集上,利用去噪目標作為基於ELBO的似然替代,來評估視頻擴散模型中的直覺物理理解,從而區分物理上有效與不可能的視頻。通過在我們構建的涵蓋四個物理領域的十二種場景基準上進行測試,我們展示了我們的評估指標——合理性偏好誤差(PPE),與人類偏好表現出高度一致性,超越了現有的最先進評估基準。隨後,我們系統性地對當前視頻擴散模型中的直覺物理理解進行了基準測試。我們的研究進一步分析了模型設計和推理設置如何影響直覺物理理解,並強調了不同物理定律間領域特定能力的差異。實證結果表明,儘管當前模型在處理複雜和混沌動力學方面仍存在困難,但隨著模型能力和推理設置的擴展,物理理解能力呈現出明顯的提升趨勢。
生成逼真且可控的3D人體化身是一項長期存在的挑戰,尤其是在涵蓋廣泛屬性範圍時,如種族、年齡、服裝風格和細緻的體型。捕捉並註釋大規模的人類數據集以訓練生成模型成本高昂,且在規模和多樣性上受限。本文探討的核心問題是:能否通過蒸餾現有的基礎模型來生成理論上無界限、豐富註釋的3D人體數據?我們引入了InfiniHuman,這是一個協同蒸餾這些模型的框架,以最低成本生成豐富註釋的人體數據,並具備理論上的無限擴展性。我們提出了InfiniHumanData,這是一個完全自動化的流程,利用視覺-語言和圖像生成模型創建大規模多模態數據集。用戶研究表明,我們自動生成的身份與掃描渲染圖像無法區分。InfiniHumanData包含111,000個身份,涵蓋前所未有的多樣性。每個身份都配有多粒度文本描述、多視角RGB圖像、詳細服裝圖像和SMPL體型參數。基於此數據集,我們提出了InfiniHumanGen,這是一個基於擴散的生成流程,條件依賴於文本、體型和服裝資產。InfiniHumanGen能夠快速、逼真且精確可控地生成化身。大量實驗表明,在視覺質量、生成速度和可控性方面,我們的方法相較於最先進的技術有顯著提升。我們的方法通過實用且經濟的解決方案,實現了高質量化身的生成,並具備細粒度控制,達到理論上無界限的規模。我們將在https://yuxuan-xue.com/infini-human上公開自動數據生成流程、全面的InfiniHumanData數據集以及InfiniHumanGen模型。
生成模型構成了現代機器學習的基石,支撐著文本、視覺及多模態應用中尖端系統的發展。儘管最大似然估計長期以來作為主導的訓練範式,但近期研究揭示了其局限性,特別是在泛化能力及與強化學習技術(如策略梯度方法)相比對災難性遺忘的易感性方面。然而,這些方法依賴於顯式的獎勵信號,而這些信號在實際應用中往往難以獲取,這使得在僅能獲取高質量數據集的情況下如何對齊生成模型這一根本問題懸而未決。在本研究中,我們通過雙層優化框架應對這一挑戰,其中獎勵函數被視為外層問題的優化變量,而策略梯度目標則定義了內層問題。隨後,我們在一個可處理的設定下對這一優化問題進行了理論分析,並提取了見解,這些見解,正如我們所展示的,能夠推廣至諸如表格分類和基於模型的強化學習等應用中。我們已將代碼發佈於https://github.com/abenechehab/nll_to_po。
預訓練視覺基礎模型(VFMs)通過豐富的視覺表徵推動了機器人學習的進步,然而單一的VFM通常僅在特定領域表現卓越,這限制了其跨任務的通用性。將多個VFMs蒸餾成一個統一的策略表徵可以緩解這一限制,但往往導致任務特徵選擇的僵化,並需要耗費大量資源進行全面重新訓練以融入機器人領域知識。我們提出了VER,一種用於機器人學習的視覺專家變換器。在預訓練階段,VER將多個VFMs蒸餾成一個視覺專家庫。隨後,它僅對一個輕量級路由網絡(參數少於0.4%)進行微調,以動態地從預訓練庫中選擇與任務相關的專家,用於下游機器人任務。我們進一步引入了基於課程Top-K退火的局部專家路由,以提高動態專家選擇的靈活性與精確度。此外,VER支持參數高效的微調,實現了專家的可擴展利用及機器人領域知識的自適應整合。在17項多樣化的機器人任務及多種策略頭中,VER達到了最先進的性能。我們發現,VER減少了與任務無關區域(如背景)中的大範數異常值,並集中於任務關鍵區域。視覺化展示與代碼可於https://yixiaowang7.github.io/ver_page/查閱。
高品質的預訓練數據是大型語言模型(LLMs)的化石燃料,然而對於前沿模型而言,其儲備正逐漸枯竭。本文介紹了RePro,一種新穎的網絡回收方法,它通過強化學習訓練一個相對較小的語言模型,以生成有效且忠實的預訓練數據重述。具體而言,我們設計了一個質量獎勵和三個忠實度獎勵,優化語言模型重述器,將原始數據轉化為高品質的重述,同時保持其核心語義和結構。在實驗中,我們訓練了一個40億參數的重述器,從DCLM-RefinedWeb中回收了720億個令牌。在4億和14億參數模型上的預訓練結果顯示,RePro在22個下游任務上相比僅使用原始數據的基線,帶來了4.7%-14.0%的相對準確率提升。RePro還超越了ReWire,這是一種最先進的網絡回收方法,它提示了一個700億參數的重述器,以及一個數據池大四倍的原始數據基線。不同回收數據量的實驗表明,RePro將原始數據效率提高了2-3倍。個體和分佈分析驗證了與基於提示的方法相比,RePro保留了更多關鍵信息,並忠實地反映了原始數據的特徵。這些結果共同表明,RePro提供了一條高效且可控的路徑,以有效利用LLM預訓練的化石燃料。我們在https://github.com/cxcscmu/RePro開源了我們的代碼、重述器及回收數據。
有機反應機制是指反應物逐步形成中間體和產物的基本反應過程,對於理解化學反應性和設計新分子及反應至關重要。儘管大型語言模型(LLMs)在理解化學任務(如合成設計)方面展現出潛力,但尚不清楚這在多大程度上反映了真正的化學推理能力,即生成有效中間體、保持化學一致性以及遵循邏輯連貫的多步驟路徑的能力。為此,我們引入了oMeBench,這是有機化學領域首個大規模、專家策劃的有機機制推理基準。它包含超過10,000個帶有中間體、類型標籤和難度評級的註解機制步驟。此外,為了更精確地評估LLM能力並實現細粒度評分,我們提出了oMeS,這是一個結合步驟級邏輯和化學相似性的動態評估框架。我們分析了最先進LLM的表現,結果顯示,儘管當前模型展現出有前景的化學直覺,但在正確且一致的多步驟推理方面仍存在困難。值得注意的是,我們發現,使用提示策略並在我們提出的數據集上微調專用模型,其性能比領先的閉源模型提高了50%。我們希望oMeBench能作為推動AI系統實現真正化學推理的堅實基礎。
尽管文本到图像(T2I)模型能够合成高质量图像,但在面对新颖或分布外(OOD)实体时,其性能会因固有的知识截止点而显著下降。我们引入了“世界到图像”这一创新框架,通过赋予T2I生成以代理驱动的世界知识来弥合这一差距。我们设计了一个代理,动态搜索网络以检索基础模型未知概念的图像。随后,利用这些信息进行多模态提示优化,引导强大的生成骨干网络实现精确合成。尤为关键的是,我们的评估超越了传统指标,采用如LLMGrader和ImageReward等现代评估方法,以衡量真实的语义保真度。实验表明,“世界到图像”在语义对齐和视觉美学两方面均大幅超越现有最先进方法,在我们精心策划的NICE基准测试中,准确率相对于提示提升了+8.1%。我们的框架以高效的方式在不到三次迭代中达成这些成果,为T2I系统更好地反映不断变化的现实世界铺平了道路。我们的演示代码可在此处获取:https://github.com/mhson-kyle/World-To-Image。
現代對話系統如ChatGPT和Alexa+依賴於預先定義的策略,這些策略規定了元數據、回應風格及工具使用規則。隨著這些基於大型語言模型(LLM)的系統擴展以支持多樣的商業和用戶查詢,此類策略——通常以上下文提示的形式實現——正變得日益複雜和冗長,使得嚴格遵循變得困難,並帶來了巨大的固定計算成本。隨著多模態代理的興起,管理視覺和多模態行為的策略變得至關重要,但這方面的研究仍顯不足。先前的提示壓縮工作主要縮短任務模板和示範,而現有的策略對齊研究僅專注於基於文本的安全規則。我們引入了多模態策略內化(Multimodal Policy Internalization, MPI),這是一項新任務,旨在將推理密集型的多模態策略內化到模型參數中,從而在推理過程中無需包含策略即可實現更強的策略遵循。MPI提出了獨特的數據和算法挑戰。我們構建了兩個數據集,涵蓋合成和現實世界的決策及工具使用任務,並提出了TriMPI,一個三階段的訓練框架。TriMPI首先通過持續預訓練注入策略知識,然後進行監督微調,最後應用PolicyRollout,這是一種GRPO風格的強化學習擴展,通過策略感知的回應增強滾動以實現接地探索。TriMPI在端到端準確性、泛化能力和抗遺忘性方面取得了顯著提升。作為多模態策略內化的首項工作,我們提供了數據集、訓練方案和全面評估,以促進未來研究。項目頁面:https://mikewangwzhl.github.io/TriMPI。
通用的大型語言模型(LLMs)在推理方面表現出色,但針對翻譯優化的模型在推理任務上卻顯得力不從心。為解決這一問題,我們提出了一種新穎的翻譯增強方案,該方案從指令模型入手,並僅在平行數據上進行層選擇性調優。遵循這一流程,我們推出了Qwen3-XPlus模型,該模型在高資源和低資源語言上的翻譯性能均顯著提升,在低資源語言如斯瓦希里語中,達到了15+的spBLEU和40+的xComet評分。值得注意的是,僅使用小型平行數據集進行訓練,Qwen3-XPlus在7項多語言任務上平均提升了1+分,同時在15個流行的推理數據集上保持了與Qwen3指令模型相當的熟練度。這項工作為多語言增強提供了一種有前景的方法,顯著降低了複雜性,並提高了對更廣泛語言的易用性。代碼和模型均已公開。
深度研究的核心在於知識挖掘,這是一項從海量非結構化文本中提取結構化信息以響應用戶指令的任務。大型語言模型(LLMs)在解讀此類指令方面表現卓越,但大規模部署成本過高;而傳統的分類器和提取器管道雖然高效,卻脆弱且無法泛化至新任務。我們引入了Falconer,這是一個協作框架,它結合了LLMs的代理推理能力與輕量級代理模型,實現可擴展的知識挖掘。在Falconer中,LLMs充當規劃者,將用戶指令分解為可執行的管道,並作為註釋者,生成監督數據來訓練小型代理模型。該框架將分類和提取統一為兩個原子操作——獲取標籤和獲取跨度,使得單一的指令跟隨模型能夠替代多個特定任務組件。為了評估由Falconer孵化的代理模型與人類及大型模型提供的註釋之間的一致性,我們構建了涵蓋規劃和端到端執行的新基準。實驗表明,Falconer在指令跟隨準確性上緊密匹配最先進的LLMs,同時將推理成本降低高達90%,並加速大規模知識挖掘超過20倍,為深度研究提供了高效且可擴展的基礎。
創造性生成是合成新穎、令人驚奇且具價值樣本的過程,這些樣本反映了用戶意圖,卻無法事先預見。此任務旨在擴展人類的想象力,使我們能夠發現存在於熟悉領域之間未探索空間中的視覺概念。儘管文本到圖像擴散模型在渲染與用戶提示精確匹配的逼真場景方面表現出色,但它們在生成真正新穎內容方面仍面臨挑戰。現有提升生成創造力的方法,要么依賴於圖像特徵的插值,這將探索限制在預定義的類別中;要么需要耗時的過程,如嵌入優化或模型微調。我們提出了VLM引導的自適應負向提示法,這是一種無需訓練、在推理階段應用的方法,旨在促進創造性圖像生成的同時,保持生成對象的有效性。我們的方法利用視覺語言模型(VLM)分析生成過程中的中間輸出,並自適應地引導其遠離傳統視覺概念,從而鼓勵新穎且令人驚奇的輸出產生。我們通過新穎性和有效性來評估創造力,並在CLIP嵌入空間中使用統計指標進行衡量。通過大量實驗,我們展示了在創造性新穎性方面的一致提升,且計算開銷可忽略不計。此外,與現有方法主要生成單一對象不同,我們的方法擴展至複雜場景,如生成一組連貫的創造性對象,並在精細的構圖提示中保持創造力。我們的方法無縫集成到現有的擴散管道中,為生產超越文本描述限制的創造性輸出提供了一條實用途徑。
情境學習使大型模型能夠從少量示範中適應新任務,但在分子設計領域的應用仍顯有限。現有數據庫如ChEMBL涵蓋了數百萬生物檢測的分子特性,然而每種特性的標記數據依然稀缺。為解決這一限制,我們引入了示範條件擴散模型(DemoDiff),該模型使用少量分子-分數示例而非文本描述來定義任務情境。這些示範指導去噪Transformer生成與目標特性相符的分子。為實現可擴展的預訓練,我們開發了一種新的分子標記器,採用節點對編碼(Node Pair Encoding)在模塊層面表示分子,所需節點數量減少至原來的5.5分之一。我們從多個來源整理了一個包含數百萬情境任務的數據集,涵蓋藥物與材料領域,並在此基礎上預訓練了一個擁有7億參數的模型。在六大類別的33項設計任務中,DemoDiff的表現與比其大100至1000倍的語言模型相當或更優,平均排名達到3.63,而領域特定方法的平均排名則在5.25至10.20之間。這些成果確立了DemoDiff作為分子設計基礎模型的地位,適用於情境分子設計。我們的代碼已公開於https://github.com/liugangcode/DemoDiff。
近年來,雖然基於雲端的多模態大語言模型(MLLMs)如QwenVL、InternVL、GPT-4o、Gemini和Claude Sonnet憑藉數千億參數的龐大模型規模展現了卓越的性能,但它們在記憶體、功耗和計算能力方面遠遠超出了手機等邊緣設備的限制。本文介紹了AndesVL,這是一套基於Qwen3大語言模型和多種視覺編碼器的移動端MLLMs,參數量從0.6B到4B不等。我們全面概述了AndesVL的模型架構、訓練流程和訓練數據,其在多個開源基準測試中取得了頂尖性能,涵蓋了文本豐富圖像理解、推理與數學、多圖像理解、通用視覺問答(VQA)、幻覺緩解、多語言理解以及與圖形用戶界面(GUI)相關的任務,與同規模的頂尖模型相比表現出色。此外,我們還引入了1+N LoRA(低秩適應)技術。
大型視覺與語言模型(LVLMs)的典型訓練後範式包括監督式微調(SFT)和可驗證獎勵的強化學習(RLVR)。SFT利用外部指導來注入新知識,而RLVR則依賴內部強化來提升推理能力和整體表現。然而,我們的分析顯示,SFT往往導致次優表現,而RLVR在處理超出模型內部知識庫的任務時則顯得力不從心。為解決這些限制,我們提出了ViSurf(視覺監督與強化微調),這是一種統一的訓練後範式,將SFT和RLVR的優勢整合於單一階段中。我們分析了SFT和RLVR目標的推導,以建立ViSurf目標,為這兩種範式提供了一個統一的視角。ViSurf的核心在於將真實標籤注入RLVR的滾動過程中,從而同時提供外部監督和內部強化。此外,我們引入了三種新穎的獎勵控制策略,以穩定並優化訓練過程。在多個不同基準上的廣泛實驗證明了ViSurf的有效性,其表現優於單獨的SFT、RLVR以及兩階段的SFT→RLVR。深入分析進一步支持了這些發現,驗證了ViSurf的推導和設計原則。
指令導向的影片編輯已成為一個快速發展的研究方向,不僅為直觀的內容轉換提供了新機會,也為系統性評估帶來了重大挑戰。現有的影片編輯基準測試無法充分支援指令導向影片編輯的評估,並且存在來源多樣性不足、任務覆蓋範圍狹窄以及評估指標不完整等問題。為解決上述限制,我們推出了IVEBench,這是一個專為指令導向影片編輯評估設計的現代基準測試套件。IVEBench包含一個由600部高品質來源影片組成的多樣化數據庫,涵蓋七個語意維度,影片長度從32幀到1,024幀不等。此外,它還包括8大類編輯任務,共35個子類別,其提示詞由大型語言模型生成並經專家審核完善。關鍵在於,IVEBench建立了一個三維評估協議,涵蓋影片品質、指令遵循度和影片真實性,整合了傳統指標和基於多模態大型語言模型的評估方法。大量實驗證明了IVEBench在基準測試最先進的指令導向影片編輯方法方面的有效性,顯示其能夠提供全面且與人類判斷一致的評估結果。
地面激光扫描(TLS)点云的精确语义分割受限于昂贵的手动标注成本。我们提出了一种半自动化、不确定性感知的流程,该流程整合了球面投影、特征增强、集成学习及针对性标注,以在保持高精度的同时减少标注工作量。我们的方法将三维点投影至二维球面网格,通过多源特征丰富像素信息,并训练一组分割网络以生成伪标签和不确定性图,后者用于指导模糊区域的标注。二维输出结果被反向投影至三维空间,产生密集标注的点云,并辅以三层可视化套件(二维特征图、三维着色点云及紧凑虚拟球体)以实现快速分类和审阅指导。利用此流程,我们构建了Mangrove3D,一个针对红树林的语义分割TLS数据集。我们进一步评估了数据效率和特征重要性,以解答两个关键问题:(1)需要多少标注数据,(2)哪些特征最为重要。结果表明,性能在约12次标注扫描后趋于饱和,几何特征贡献最大,且紧凑的九通道堆叠几乎捕捉了所有判别力,平均交并比(mIoU)稳定在约0.76。最后,通过在ForestSemantic和Semantic3D上的跨数据集测试,我们验证了特征增强策略的泛化能力。 我们的贡献包括:(i)一套稳健的、不确定性感知的TLS标注流程及可视化工具;(ii)Mangrove3D数据集;以及(iii)关于数据效率和特征重要性的实证指导,从而为生态监测及其他领域实现可扩展、高质量的TLS点云分割提供了支持。数据集及处理脚本已公开于https://fz-rit.github.io/through-the-lidars-eye/。
在模型构建方面的改进,包括加强的安全防护措施,使得大型语言模型(LLMs)能够越来越多地通过标准的安全检查。然而,在对话过程中,LLMs有时仍会不自觉地流露出有害行为,例如表达种族主义观点。为了系统地分析这一现象,我们引入了CoBia,一套轻量级的对抗攻击工具,使我们能够精确定义LLMs在对话中偏离规范或伦理行为的条件范围。CoBia构建了一个对话场景,其中模型对某一社会群体发表了带有偏见的言论。随后,我们评估模型是否能够从这一人为制造的偏见声明中恢复,并拒绝带有偏见的后续问题。我们对11个开源及专有的LLMs进行了评估,关注其输出与六个社会人口统计类别相关的表现,这些类别关乎个人安全与公平待遇,即性别、种族、宗教、国籍、性取向及其他。我们的评估基于已建立的LLM偏见指标,并将结果与人类判断进行对比,以界定LLMs的可靠性与一致性。结果表明,有意构建的对话能可靠地揭示偏见放大现象,且LLMs在对话中往往无法拒绝带有偏见的后续问题。这种压力测试凸显了通过互动可以揭示的深层次偏见。代码及相关资源可在https://github.com/nafisenik/CoBia获取。
大型推理模型(LRMs)在複雜推理任務中表現卓越,但傳統上是在靜態的「凍結世界」設定中進行評估:模型回應被假設為即時產生,且請求的上下文在回應期間被認為是固定不變的。雖然這對於短期任務通常成立,但在現代推理任務(如輔助編程)中,「凍結世界」假設便不再適用,因為模型可能需要數小時來思考問題,且從模型開始思考到最終輸出期間,程式碼可能會發生巨大變化。在本研究中,我們挑戰了凍結世界假設,並在兩種現實的動態情境下評估了LRM的魯棒性:中斷(測試模型在有限預算下的部分輸出質量)和動態上下文(測試模型對即時變化的適應能力)。在需要長篇推理的數學和編程基準測試中,靜態評估一致性地高估了魯棒性:即使在靜態設定中達到高準確率的最先進LRMs,在中斷或暴露於變化的上下文時,也可能會不可預測地失敗,當更新在推理過程的後期引入時,性能下降可達60%。我們的分析進一步揭示了幾種新的失敗模式,包括推理洩漏(模型在中斷時將推理過程摺疊到最終答案中)、恐慌(在時間壓力下模型完全放棄推理並返回錯誤答案)以及自我懷疑(在整合更新資訊時性能下降)。
在本論文中,我們首次進行了大規模研究,探討由大型語言模型(LLMs)生成的JavaScript代碼是否能夠揭示其生成模型,從而實現可靠的作品歸屬和模型指紋識別。隨著AI生成代碼的迅速崛起,歸屬識別在檢測漏洞、標記惡意內容和確保責任追究方面扮演著關鍵角色。儘管AI與人類檢測通常將AI視為單一類別,我們展示了個別LLMs會留下獨特的風格特徵,即使是在屬於同一家族或參數規模的模型之間也是如此。為此,我們引入了LLM-NodeJS,這是一個包含20個大型語言模型生成的50,000個Node.js後端程序的數據集。每個程序都有四種變體,共產生250,000個獨特的JavaScript樣本,以及兩種額外的表示形式(JSIR和AST),以支持多樣的研究應用。利用此數據集,我們對比了傳統機器學習分類器與微調的Transformer編碼器,並介紹了CodeT5-JSA,這是一種基於770M參數CodeT5模型定制的架構,移除了其解碼器並修改了分類頭。它在五類歸屬任務中達到了95.8%的準確率,十類任務中為94.6%,二十類任務中為88.5%,超越了其他測試模型如BERT、CodeBERT和Longformer。我們展示了分類器捕捉了程序數據流和結構中更深層次的風格規律,而非依賴於表面特徵。因此,即使在代碼混淆、註釋刪除和重大代碼轉換後,歸屬識別仍然有效。為支持開放科學和可重現性,我們在GitHub上發布了LLM-NodeJS數據集、Google Colab訓練腳本及所有相關材料:https://github.com/LLM-NodeJS-dataset。
診斷全切片影像是一個互動的多階段過程,涉及放大倍率的變化和視野間的移動。儘管近期的病理學基礎模型表現強勁,但實際能決定下一步檢查哪個視野、調整放大倍率並提供可解釋診斷的代理系統仍屬稀缺。阻礙在於數據:專家觀察行為的可擴展、臨床對齊的監督是隱性且基於經驗的,並未記載於教科書或線上,因此在大語言模型訓練中缺失。我們引入了AI會話記錄器,它與標準的WSI查看器協作,無干擾地記錄常規導航,並將查看器日誌轉化為標準化的行為指令(在特定放大倍率下檢查或窺視)和邊界框。一個輕量級的人類參與審查環節將AI草擬的推理轉化為Pathology-CoT數據集,這是一種配對的「看哪裡」和「為何重要」的監督形式,其標註時間約降低六倍。利用這些行為數據,我們構建了Pathologist-o3,一個兩階段代理系統,首先提出感興趣區域,然後進行行為引導的推理。在胃腸道淋巴結轉移檢測任務中,它達到了84.5%的精度、100.0%的召回率和75.4%的準確率,超越了最先進的OpenAI o3模型,並在不同骨幹網絡上展現了良好的泛化能力。據我們所知,這是病理學領域首批基於行為的代理系統之一。通過將日常查看器日誌轉化為可擴展、專家驗證的監督,我們的框架使代理病理學變得實用,並為構建與人類對齊、可升級的臨床AI鋪平了道路。
大型語言模型(LLMs)能夠正確回答「愛因斯坦何時出生?」這樣的問題,但在撰寫關於愛因斯坦生平的內容時卻無法提供相同的日期,這揭示了模型在處理不同任務複雜度時獲取事實知識的根本不一致性。儘管模型在事實問答基準測試中展現出令人印象深刻的準確性,但簡單查詢與複雜查詢之間的可靠性差距仍然未被充分理解,這削弱了其可信度。在本研究中,我們引入了針對事實問答的短長形式對齊(Short-Long Form Alignment for Factual Question Answering, SLAQ),這是一個對比LLMs對同一事實問題在(a)孤立(短形式)與(b)融入複雜查詢(長形式)中回答的受控評估框架。通過觀察16個LLMs在600個查詢上的表現,我們發現對應短查詢與長查詢的答案存在系統性的不對齊。我們進一步揭示了位置依賴的準確性損失和動量效應,即連續正確或錯誤的答案會形成自我強化的模式。通過機制分析,我們發現對齊的事實會激活模型內部的重疊部分,且基於機制相似性的指標能夠以高達78%的準確率預測短長答案的對齊情況。我們的工作確立了查詢複雜度上的事實一致性作為LLMs可信度的重要方面,並挑戰了當前評估實踐,這些實踐隱含地假設了在簡單事實查詢上的良好表現也意味著在更複雜的知識尋求任務中的可靠性。
視頻插幀技術在兩幅圖像幀之間創造出流暢自然的過渡效果,使其成為視頻編輯和長視頻合成中不可或缺的工具。現有領域的研究尚無法生成大規模、複雜或精細的運動。特別是,它們難以適應用戶意圖的多樣性,通常缺乏對中間幀細節的精細控制,導致與創意構思不符。為填補這些空白,我們推出了MultiCOIN,這是一個支持多模態控制的視頻插幀框架,包括深度過渡與分層、運動軌跡、文本提示以及用於運動定位的目標區域,同時在靈活性、易用性和精細視頻插值的精確度之間取得平衡。為實現這一目標,我們採用擴散變換器(DiT)架構作為視頻生成模型,因其在生成高質量長視頻方面已展現出卓越能力。為確保DiT與我們的多模態控制兼容,我們將所有運動控制映射為一種通用的、用戶友好的基於點的稀疏表示,作為視頻/噪聲輸入。此外,為尊重不同控制方式在粒度和影響力上的多樣性,我們將內容控制與運動控制分為兩個分支,在引導去噪過程前分別編碼所需特徵,從而形成兩個生成器:一個負責運動,另一個負責內容。最後,我們提出了一種分階段訓練策略,確保模型能平穩學習多模態控制。大量的定性與定量實驗證明,多模態控制能夠實現更為動態、可定制且語境準確的視覺敘事。