每日精選AI研究論文及翻譯
文本至SQL轉換旨在將自然語言查詢翻譯成SQL語句,此技術實用性強,因其使任何人都能輕鬆從數據庫中檢索所需信息。近年來,許多現有方法利用大型語言模型(LLMs)來解決這一問題,依賴於其在理解用戶查詢及生成相應SQL代碼方面的強大能力。然而,LLMs中的參數化知識可能不足以涵蓋所有多樣化且領域特定的查詢,這些查詢往往需要基於多種數據庫模式進行基礎,這導致生成的SQL語句時常不夠精確。為解決此問題,我們提出構建文本至SQL的知識庫,作為基礎知識來源,從中檢索並生成針對特定查詢所需的知識。特別地,與現有方法相比,無論是手動標註知識還是僅為每個查詢生成少量知識,我們的知識庫均更為全面,其基於所有可用問題及其相關數據庫模式與關聯知識的組合構建,並可重複應用於來自不同數據集和領域的未知數據庫。我們在多個文本至SQL數據集上驗證了我們的方法,考慮了數據庫重疊與非重疊兩種場景,結果顯示該方法顯著優於相關基線。
指令遵循(Instruction Following, IF)是大型语言模型(LLMs)的一项关键能力。然而,处理具有多重约束的复杂指令仍然具有挑战性。以往的方法通常基于满足约束的数量来选择偏好对,这引入了噪声,因为所选示例可能未能遵循某些约束,而被拒绝的示例在某些方面可能优于所选示例。为了应对与多重偏好对齐的挑战,我们提出了一种简单而有效的方法,称为反向偏好优化(Reverse Preference Optimization, RPO)。它通过动态反转指令中的约束来减轻偏好对中的噪声,确保所选响应是完美的,从而减轻了广泛采样和过滤以收集完美响应的负担。此外,反转还扩大了所选响应与被拒绝响应之间的差距,从而明确了优化方向,使其对噪声更具鲁棒性。我们在两个多轮IF基准测试Sysbench和Multi-IF上评估了RPO,分别展示了相对于DPO基线的平均提升4.6和2.5分(在Llama-3.1 8B上)。此外,RPO在模型规模(8B到70B参数)上有效扩展,70B的RPO模型超越了GPT-4o。
本文旨在克服在利用大型語言模型(LLMs)進行推理的強化學習(RL)擴展中的一個主要障礙,即策略熵的崩潰現象。這一現象在未進行熵干預的大量RL運行中普遍存在,其中策略熵在訓練初期急劇下降,這種探索能力的減弱總是伴隨著策略性能的飽和。實踐中,我們建立了熵H與下游性能R之間的轉換方程R=-a*e^H+b。這一經驗法則強烈表明,策略性能是以策略熵為代價換取的,因此受其耗盡的限制,且上限完全可預測為H=0,R=-a+b。我們的發現強調了在為RL擴展計算資源時,進行熵管理以持續探索的必要性。為此,我們從理論和實證兩個角度研究了熵的動態變化。我們的推導指出,策略熵的變化是由動作概率與對數概率變化之間的協方差驅動的,在使用類似策略梯度算法時,這一協方差與其優勢成正比。實證研究表明,協方差項的值與熵差異完全匹配,支持了理論結論。此外,協方差項在整個訓練過程中大多保持正值,進一步解釋了為什麼策略熵會單調下降。通過理解熵動態背後的機制,我們激勵通過限制高協方差詞元的更新來控制熵。具體而言,我們提出了兩種簡單而有效的技術,即Clip-Cov和KL-Cov,分別對高協方差詞元進行裁剪和應用KL懲罰。實驗表明,這些方法鼓勵了探索,從而幫助策略逃離熵崩潰並實現更好的下游性能。
基於大型語言模型(LLM)的代理在多種軟體工程(SWE)任務中展現出顯著的潛力。然而,推動這一領域發展面臨兩大關鍵挑戰。首先,高品質的訓練數據稀缺,尤其是那些反映真實世界軟體工程場景的數據,在這些場景中,代理需要與開發環境互動、執行代碼並根據其行動結果調整行為。現有的數據集要么僅限於一次性代碼生成,要么由少量手動策劃的互動任務組成,缺乏規模和多樣性。其次,缺乏新鮮的互動式軟體工程任務影響了對快速改進模型的評估,因為靜態基準測試由於污染問題迅速過時。為解決這些限制,我們引入了一種新穎、自動化且可擴展的流程,從多樣化的GitHub倉庫中持續提取真實世界的互動式軟體工程任務。利用這一流程,我們構建了SWE-rebench,這是一個包含超過21,000個基於Python的互動式軟體工程任務的公開數據集,適合大規模的軟體工程代理強化學習。此外,我們利用SWE-rebench方法持續收集的新鮮任務,建立了一個無污染的代理軟體工程基準測試。我們比較了多種大型語言模型在這一基準測試上的結果與在SWE-bench Verified上的結果,顯示某些語言模型的性能可能因污染問題而被高估。
大型語言模型(LLMs)在展現出卓越推理能力的同時,也伴隨著顯著的推理開銷,這為其部署帶來了重大挑戰。儘管蒸餾後的小型語言模型(SLMs)顯著提升了效率,但其性能卻因無法遵循LLMs的推理路徑而受到影響。幸運的是,我們發現僅有少數token真正導致了LLMs與SLMs之間的推理路徑分歧。大多數生成的token要麼完全相同,要麼表現出中性差異,如縮寫或表達上的微小變化。基於這一洞察,我們提出了**羅馬之路(Roads to Rome, R2R)**,這是一種神經token路由方法,它選擇性地僅在這些關鍵的、導致路徑分歧的token上使用LLMs,而將大部分token生成任務交由SLM處理。我們還開發了一個自動數據生成管道,用於識別分歧token並生成token級別的路由標籤,以訓練輕量級路由器。我們將R2R應用於DeepSeek系列中的R1-1.5B和R1-32B模型,並在具有挑戰性的數學、編程和問答基準上進行評估。在平均激活參數規模為5.6B的情況下,R2R以1.6倍於R1-7B的平均準確率,甚至超越了R1-14B模型。與R1-32B相比,它在保持相當性能的同時,實現了2.8倍的實時加速,推進了測試時擴展效率的帕累托前沿。我們的代碼可在https://github.com/thu-nics/R2R 獲取。
DeepSeek-R1的成功突顯了強化學習(RL)在提升大型語言模型(LLMs)推理能力中的重要作用。在本研究中,我們提出了Skywork-OR1,這是一種針對長鏈思維(CoT)模型的有效且可擴展的RL實現。基於DeepSeek-R1-Distill模型系列,我們的RL方法取得了顯著的性能提升,將32B模型在AIME24、AIME25和LiveCodeBench上的平均準確率從57.8%提升至72.8%(+15.0%),並將7B模型的準確率從43.6%提升至57.5%(+13.9%)。我們的Skywork-OR1-32B模型在AIME24和AIME25基準測試中超越了DeepSeek-R1和Qwen3-32B,同時在LiveCodeBench上取得了相當的結果。Skywork-OR1-7B和Skywork-OR1-Math-7B模型在相似規模的模型中展示了競爭性的推理能力。我們對訓練管道的核心組件進行了全面的消融研究,以驗證其有效性。此外,我們深入研究了熵崩潰現象,識別了影響熵動態的關鍵因素,並證明減緩過早的熵崩潰對於提升測試性能至關重要。為支持社區研究,我們完全開源了模型權重、訓練代碼和訓練數據集。
推理視覺語言模型(VLMs)在處理複雜的多模態任務上展現了顯著的性能。然而,這些模型仍面臨重大挑戰:它們對推理錯誤極為敏感,需要大量註釋數據或精確的驗證器,並且在特定領域之外的泛化能力較弱。為應對這些限制,我們探索了自我校正作為增強推理VLMs的策略。首先,我們深入分析了推理VLMs的自我校正能力,並識別出關鍵差距。基於這些發現,我們引入了Sherlock,一個自我校正與自我改進的訓練框架。Sherlock引入了軌跡層面的自我校正目標、基於視覺擾動的偏好數據構建方法,以及用於偏好調節的動態beta值。一旦模型僅使用20k隨機抽樣的註釋數據獲得自我校正能力,它便能繼續在無外部監督的情況下自我改進。基於Llama3.2-Vision-11B模型構建的Sherlock在八個基準測試中取得了顯著成果,直接生成的準確率達到64.1,自我校正後提升至65.4。它超越了LLaVA-CoT(63.2)、Mulberry(63.9)和LlamaV-o1(63.4),同時使用的註釋數據量不到20%。
在後訓練階段提升多模態大型語言模型(MLLMs)通常依賴於監督微調(SFT)或強化學習(RL)。然而,這些監督方法需要昂貴且手動標註的多模態數據——這是一種最終不可持續的資源。儘管最近的研究探索了無監督的後訓練,但其方法複雜且難以迭代。在本研究中,我們首次探討了使用GRPO這一穩定且可擴展的在線RL算法,以實現無需外部監督的持續自我改進。我們提出了MM-UPT,這是一個簡單而有效的框架,用於MLLMs的無監督後訓練。MM-UPT基於GRPO,用基於多個採樣響應的多數投票的自我獎勵機制取代了傳統的獎勵信號。我們的實驗表明,MM-UPT顯著提升了Qwen2.5-VL-7B的推理能力(例如,在MathVista上從66.3%提升至72.9%,在We-Math上從62.9%提升至68.7%),使用的是沒有真實標籤的標準數據集。MM-UPT還超越了先前的無監督基線,甚至接近了監督GRPO的結果。此外,我們展示了僅由MLLM自身生成的合成問題也能提升性能,這突顯了一種可擴展自我改進的有前景的方法。總體而言,MM-UPT為在缺乏外部監督的情況下持續自主增強MLLMs提供了一種新範式。我們的代碼可在https://github.com/waltonfuture/MM-UPT獲取。
現代單圖像超分辨率(SISR)模型在訓練時的放大倍率下能呈現出逼真的效果,但在遠超該範圍的放大需求下則會失效。我們通過鏈式放大(Chain-of-Zoom, CoZ)這一模型無關框架來解決這一可擴展性瓶頸,該框架將SISR分解為一系列自迴歸的中間尺度狀態,並配備多尺度感知提示。CoZ反覆利用一個骨幹SR模型,將條件概率分解為可處理的子問題,從而無需額外訓練即可實現極端分辨率。由於在高倍放大下視覺線索會減弱,我們在每個放大步驟中加入了由視覺語言模型(VLM)生成的多尺度感知文本提示。提示提取器本身通過廣義獎勵策略優化(GRPO)與一個評判VLM進行微調,使文本指導更符合人類偏好。實驗表明,包裹在CoZ中的標準4倍擴散SR模型能夠實現超過256倍的放大,同時保持高感知質量和保真度。項目頁面:https://bryanswkim.github.io/chain-of-zoom/。
注意力機制的效率至關重要,因為其時間複雜度隨序列長度呈二次方增長。SageAttention2 通過利用量化技術來加速注意力中的矩陣乘法(Matmul)來解決這一問題。為了進一步加速 SageAttention2,我們提出利用 FP8 Matmul 累積到 FP16 的更快指令。該指令比 SageAttention2 中使用的 FP8 Matmul 快 2 倍。我們的實驗表明,SageAttention2++ 在保持與 SageAttention2 相同注意力精度的同時,比 FlashAttention 實現了 3.9 倍的加速。這意味著 SageAttention2++ 能夠有效加速包括語言、圖像和視頻生成在內的各種模型,且端到端指標損失可忽略不計。代碼將在 https://github.com/thu-ml/SageAttention 提供。
近期,大型语言模型(LLMs)的进展展示了令人瞩目的链式思维推理能力,其中强化学习(RL)在这一进程中扮演了关键角色。尽管“顿悟时刻”模式——即模型通过反思进行自我修正——常被归因于RL带来的涌现特性,但我们首先证明了这些模式在RL训练前的多模态LLMs(MLLMs)中就已存在,却未必与推理性能的提升直接相关。基于这些洞察,我们提出了一项全面研究,通过两阶段方法增强多模态推理能力:(1)以监督微调(SFT)作为冷启动,采用结构化的链式思维推理模式,随后(2)通过GRPO进行强化学习,以进一步精炼这些能力。我们的大量实验表明,这种组合方法在多项挑战性的多模态推理基准测试中,持续优于仅使用SFT或仅使用RL的方法。由此产生的模型在3B和7B规模的开源MLLMs中均达到了最先进的性能,其中我们的7B模型相较于基础模型有显著提升(例如,MathVista上从66.3%提升至73.4%,We-Math上从62.9%提升至70.4%),而我们的3B模型则与多个7B模型竞争性能。总体而言,这项工作为构建先进的多模态推理模型提供了实用指导。我们的代码可在https://github.com/waltonfuture/RL-with-Cold-Start获取。
我們提出了RenderFormer,這是一種神經渲染管線,能夠直接從基於三角形表示的場景中渲染出具有完整全局光照效果的圖像,且無需針對每個場景進行訓練或微調。與傳統的物理中心渲染方法不同,我們將渲染過程表述為一個序列到序列的轉換任務,其中代表帶有反射屬性三角形的符號序列被轉換為代表小塊像素的輸出符號序列。RenderFormer遵循兩階段管線:第一階段是視角無關的,模擬三角形間的光傳輸;第二階段則是視角依賴的,在視角無關階段生成的三角形序列指導下,將代表光線束的符號轉換為相應的像素值。這兩個階段均基於Transformer架構,並在極少先驗約束下進行學習。我們在形狀和光傳輸複雜度各異的場景上展示並評估了RenderFormer的性能。
下一令牌预测作为基础学习任务,使得大型语言模型(LLMs)具备推理能力。然而,当目标是为多模态语言模型(MLLMs)赋予处理视频输入的时间推理能力时,应选择何种学习任务?现有的任务,如视频问答,往往依赖于人类或更强大的MLLMs的标注,而视频描述则倾向于将时间推理与空间信息混为一谈。为填补这一空白,我们提出了下一事件预测(NEP),这是一种利用未来视频片段作为丰富自监督信号以促进时间推理的学习任务。我们将每段视频分割为过去帧和未来帧:MLLM以过去帧为输入,预测从未来帧中提取的事件摘要,从而激励模型进行时间推理以完成任务。为支持此任务,我们构建了V1-33K数据集,包含33,000个自动提取的视频片段,涵盖多样化的现实场景。我们进一步探索了一系列视频指令调优策略,研究它们对时间推理的影响。为评估进展,我们引入了FutureBench,用于评估预测未见未来事件的一致性。实验验证了NEP为培养MLLMs的时间推理能力提供了一种可扩展且有效的训练范式。
深度研究系統代表了一類新興的代理式信息檢索方法,它們能夠針對複雜查詢生成全面且論據充分的報告。然而,現有的大多數框架依賴於動態的商業搜索API,這不僅帶來了成本問題,還存在可重現性和透明度方面的挑戰。為解決這些限制,我們引入了DeepResearchGym,這是一個開源的沙盒環境,它結合了可重現的搜索API和嚴格的評估協議,用於對深度研究系統進行基準測試。該API利用最先進的密集檢索器和通過DiskANN實現的近似最近鄰搜索,對大規模公共網絡語料庫(即ClueWeb22和FineWeb)進行索引。它在確保跨運行文檔排名穩定的同時,實現了比主流商業API更低的延遲,並且可供研究免費使用。為了評估深度研究系統的輸出,我們通過LLM作為評判者的自動化指標擴展了Researchy Questions基準,以衡量系統與用戶信息需求的契合度、檢索的忠實度以及報告的質量。實驗結果表明,集成DeepResearchGym的系統性能與使用商業API的系統相當,且在不同評估指標下的性能排名保持一致。一項人工評估研究進一步證實,我們的自動化協議與人類偏好相符,驗證了該框架在支持深度研究系統受控評估方面的能力。我們的代碼和API文檔可在https://www.deepresearchgym.ai 獲取。
企業搜尋系統常因語意不匹配和術語重疊而難以檢索準確的領域特定資訊。這些問題可能降低下游應用程式的效能,如知識管理、客戶支援和檢索增強生成代理。為應對這一挑戰,我們提出了一個可擴展的困難負樣本挖掘框架,專門針對領域特定的企業數據進行優化。我們的方法動態選擇語意上具有挑戰性但上下文無關的文件,以增強已部署的重新排序模型。 我們的方法整合了多種嵌入模型,執行維度降低,並獨特地選擇困難負樣本,確保計算效率和語意精確性。在我們專有的企業語料庫(雲端服務領域)上的評估顯示,與最先進的基線和其他負樣本採樣技術相比,MRR@3 提升了 15%,MRR@10 提升了 19%。在公共領域特定數據集(FiQA、Climate Fever、TechQA)上的進一步驗證證實了我們方法的通用性和實際應用的準備度。
在本研究中,我們提出了少樣本領域適應圖模型(Few Shot Domain Adapting Graph, FS-DAG),這是一種可擴展且高效的模型架構,專為視覺豐富文件理解(VRDU)在少樣本設定下的應用而設計。FS-DAG在模組化框架內利用領域特定及語言/視覺特定的骨幹網絡,以極少的數據適應多樣化的文件類型。該模型對於處理OCR錯誤、拼寫錯誤及領域轉移等實際挑戰具有魯棒性,這些挑戰在現實世界部署中至關重要。FS-DAG在參數量少於9000萬的情況下仍表現出色,非常適合於計算資源受限的複雜現實世界信息抽取(IE)任務。我們通過廣泛的信息抽取任務實驗展示了FS-DAG的能力,與當前最先進的方法相比,在收斂速度和性能上均有顯著提升。此外,本研究強調了在開發更小、更高效且不犧牲性能的模型方面所取得的持續進展。代碼請見:https://github.com/oracle-samples/fs-dag
大型语言模型(LLMs)已展现出卓越的通用能力,然而提升诸如推理等技能通常需要大量计算资源,并可能削弱其泛化能力。尽管参数高效微调(PEFT)方法提供了一种更为资源节约的替代方案,但由于架构依赖性,它们通常需要对每个LLM主干进行重新训练。为应对这些挑战,本文提出通用推理器(UniR)——一个轻量级、可组合、即插即用的单一推理模块,可与任何冻结的LLM结合,赋予其专门的推理能力。具体而言,UniR将奖励分解为一个独立的推理模块,该模块利用预定义的奖励独立训练,有效地将轨迹级信号转化为令牌级指导。一旦训练完成,UniR可在推理时通过将其输出逻辑与LLM主干的逻辑简单相加,与任何冻结的LLM结合使用。这种加法结构自然支持模块化组合:针对不同任务训练的多个UniR模块可通过逻辑求和联合应用,实现复杂推理的模块化组合。在数学推理和机器翻译任务上的实验结果表明,使用Llama3.2模型时,UniR显著优于现有的基线微调方法。此外,UniR展示了强大的弱到强泛化能力:在较小模型上训练的推理模块能有效指导更大的LLMs。这使得UniR成为在不损害LLM核心能力的前提下,提升其推理能力的成本效益高、适应性强且稳健的解决方案。代码已开源,地址为https://github.com/hangeol/UniR。
解決複雜的現實世界問題需要深入的資訊搜尋與多步驟推理。近期在代理系統領域的進展,以深度研究為例,凸顯了自主多步驟研究的潛力。在本研究中,我們從數據中心化與訓練階段的角度,提出了一個構建端到端代理資訊搜尋系統的統一框架。我們的方法包含四個關鍵階段:(1) 瀏覽數據構建,(2) 軌跡採樣,(3) 用於有效冷啟動的監督微調,以及(4) 強化學習以提升泛化能力。我們基於ReAct框架,在WebDancer這一網路代理中實現了此框架。在GAIA與WebWalkerQA這兩個具挑戰性的資訊搜尋基準測試上的實證評估顯示,WebDancer表現出色,取得了顯著成果,並驗證了我們訓練範式的有效性。對代理訓練的進一步分析提供了寶貴的見解與系統化的可行路徑,有助於開發更強大的代理模型。程式碼與演示將於https://github.com/Alibaba-NLP/WebAgent發布。
高品質的多語言訓練數據對於有效預訓練大型語言模型(LLMs)至關重要。然而,合適的開源多語言數據集的可用性仍然有限。現有的最先進數據集大多依賴於啟發式過濾方法,這既限制了它們的跨語言遷移能力,也限制了其可擴展性。在此,我們介紹了JQL,這是一種系統化的方法,能夠高效地大規模策劃多樣化且高質量的多語言數據,同時顯著降低計算需求。JQL將LLMs的註釋能力提煉為基於預訓練多語言嵌入的輕量級註釋器。這些模型即使在訓練過程中未見過的語言和文字上,也展現出強大的多語言和跨語言性能。在35種語言上的實證評估表明,由此產生的註釋管道顯著優於當前的啟發式過濾方法,如Fineweb2。JQL顯著提升了下游模型訓練的質量,並提高了數據保留率。我們的研究為多語言數據策劃提供了實用的見解和寶貴的資源,提升了多語言數據集開發的標準。
自回歸語言模型(LMs)一次生成一個詞元,而人類推理則基於更高層次的抽象——句子、命題和概念。這種對比引發了一個核心問題:LMs是否也能學會在結構化的語義單元而非原始詞元序列上進行推理?在本研究中,我們探討了預訓練的LMs能否通過其已學習的表徵提升至這樣的抽象推理空間。我們提出了一個框架,該框架通過自回歸地預測下一句的連續嵌入,使預訓練的詞元級LM適應於句子空間操作。我們探索了兩種受經典表徵學習啟發的嵌入範式:1)語義嵌入,通過自動編碼學習以保留表面意義;2)上下文嵌入,通過下一句預測訓練以編碼預期結構。我們在兩種推理機制下評估這兩種嵌入:離散化,即在重新編碼前將每個預測的嵌入解碼為文本;以及連續化,即在嵌入空間中完全進行推理以提高效率。在數學、邏輯、常識和規劃四個領域中,連續推理下的上下文嵌入表現出與思維鏈(CoT)相當的競爭力,同時平均減少了一半的推理時間浮點運算次數(FLOPs)。我們還展示了可擴展性和模塊化適應的早期跡象。最後,為了可視化潛在軌跡,我們引入了SentenceLens,這是一種將中間模型狀態解碼為可解釋句子的診斷工具。綜合來看,我們的結果表明,預訓練的LMs能夠在潛在嵌入空間內有效地過渡到抽象、結構化的推理。
近期,文本到图像扩散模型(如Stable Diffusion)的蓬勃发展,激发了将其应用于360度全景图像生成的研究。先前的工作已证明,通过对预训练扩散模型采用传统的低秩适应技术来生成全景图像是可行的。然而,透视图像与全景图像之间存在的显著领域差异,引发了关于支撑这一实证成功背后机制的疑问。我们提出并验证了这样一个假设:当在全景数据上进行微调时,可训练组件展现出独特的行为,这种适应隐藏了利用预训练扩散模型内先验知识的某种内在机制。我们的分析揭示了以下两点:1)注意力模块中的查询与键矩阵负责的是可在全景与透视领域间共享的通用信息,因此与全景生成的相关性较低;2)值矩阵与输出权重矩阵则专注于将预训练知识适应至全景领域,在全景生成微调过程中扮演着更为关键的角色。我们通过引入一个名为UniPano的简单框架,实证验证了这些见解,旨在为未来研究建立一个优雅的基准。UniPano不仅超越了现有方法,而且相较于先前的双分支方法,显著减少了内存占用与训练时间,使其能够以更高分辨率进行端到端的全景生成。相关代码将予以公开。
人类创新的一个显著标志是重组过程——通过整合现有机制和概念的元素来创造新颖的想法。在本研究中,我们自动挖掘科学文献,构建了CHIMERA:一个大规模的重组实例知识库(KB)。CHIMERA可用于大规模实证探索科学家如何重组概念并从不同领域汲取灵感,或用于训练监督式机器学习模型,使其学会预测新的跨领域创新方向。为构建此知识库,我们提出了一项新颖的信息抽取任务,即从科学论文摘要中提取重组实例,收集了数百篇高质量的人工标注摘要语料,并利用其训练了一个基于大语言模型(LLM)的抽取模型。该模型应用于人工智能领域的大量论文,生成了包含超过28,000个重组实例的知识库。我们通过分析CHIMERA,探索了人工智能各子领域中重组的特性。最后,我们利用该知识库训练了一个科学假设生成模型,该模型预测了现实世界研究者认为具有启发性的新重组方向。我们的数据和代码可在https://github.cs.huji.ac.il/tomhope-lab/CHIMERA获取。
在不確定性下的穩健路徑規劃是現實物流的核心,然而大多數基準測試都假設了靜態、理想化的環境。我們提出了SVRPBench,這是首個捕捉城市規模下車輛路徑規劃中高保真隨機動態的開放基準測試。涵蓋超過500個實例,最多可達1000名客戶,它模擬了真實的配送條件:時間依賴的交通擁堵、對數正態分佈的延遲、概率性事故,以及基於經驗的住宅和商業客戶時間窗口。我們的流程生成了多樣化且約束豐富的場景,包括多倉庫和多車輛設置。基準測試顯示,如POMO和AM等最先進的強化學習求解器在分佈偏移下性能下降超過20%,而經典和元啟發式方法則保持穩健。為了促進可重現的研究,我們公開了數據集和評估套件。SVRPBench向社區發起挑戰,要求設計出能夠超越合成假設並適應現實世界不確定性的求解器。
大型语言模型(LLMs)在面对相同提示时,通常会对所有用户生成相同或相似的回应,这在用户脆弱性差异巨大的高风险应用中带来了严重的安全隐患。现有的安全评估主要依赖于上下文无关的指标——如事实性、偏见或毒性——却忽视了同一回应可能因用户背景或状况不同而带来截然不同的风险。我们引入了个性化安全以填补这一空白,并提出了PENGUIN——一个包含14,000个场景的基准,覆盖七个敏感领域,同时包含上下文丰富和上下文无关的变体。通过对六种领先的LLMs进行评估,我们证明了个性化用户信息显著提升了安全评分达43.2%,证实了个性化在安全对齐中的有效性。然而,并非所有上下文属性对安全提升的贡献均等。为此,我们开发了RAISE——一个无需训练的两阶段代理框架,它策略性地获取用户特定的背景信息。RAISE在六种基础LLMs上最高提升了31.6%的安全评分,同时保持了仅平均2.7次用户查询的低交互成本。我们的研究结果强调了在安全关键领域选择性信息收集的重要性,并提供了一种无需模型重新训练即可个性化LLM回应的实用解决方案。这项工作为适应个体用户上下文而非假设通用危害标准的安全研究奠定了基础。
在Transformer架構中,從原始數據中提取的離散單元——即所謂的“token”——是通過將輸入分割成固定長度的塊來形成的。每個token隨後被映射到一個嵌入向量中,從而實現並行的注意力計算,同時保留輸入的核心信息。由於Transformer自注意力機制的計算複雜度呈二次方增長,token削減主要被用作一種效率策略。這在單一視覺和語言領域尤為明顯,它有助於平衡計算成本、內存使用和推理延遲。儘管取得了這些進展,本文主張,在大型生成模型的時代,token削減應超越其傳統的以效率為導向的角色。相反,我們將其定位為生成建模中的一項基本原則,對模型架構及更廣泛的應用具有關鍵影響。具體而言,我們認為,在視覺、語言及多模態系統中,token削減能夠:(i)促進更深層次的多模態整合與對齊,(ii)緩解“過度思考”和幻覺現象,(iii)在長輸入上保持連貫性,以及(iv)增強訓練穩定性等。我們重新定義了token削減,使其不僅僅是一種效率措施。通過這樣做,我們勾勒出未來的研究方向,包括算法設計、強化學習引導的token削減、針對上下文學習的token優化,以及更廣泛的機器學習和科學領域。我們強調了其在推動新模型架構和學習策略方面的潛力,這些策略能夠提升模型的魯棒性、增加可解釋性,並更好地與生成建模的目標保持一致。
隨著大型語言模型(LLMs)越來越多地參與人機互動,評估其心智理論(Theory of Mind, ToM)能力——尤其是追蹤動態心理狀態的能力——變得至關重要。現有的基準測試雖然評估了基本的ToM能力,但主要聚焦於心理狀態的靜態快照,忽略了現實世界社交互動中特徵性的時間演變。我們提出了DynToM,這是一個專門設計的新基準,用於評估LLMs在相互關聯的情境中理解和追蹤心理狀態時間進展的能力。通過一個系統化的四步框架,我們生成了包含1,100個社交情境、5,500個場景和78,100個問題的數據集,每個問題都經過了真實性和質量的驗證。我們對十個最先進的LLMs進行了全面評估,結果顯示它們的平均表現比人類低44.7%,在追蹤和推理心理狀態轉變時表現顯著下降。這一性能差距凸顯了當前LLMs在模擬人類心理狀態動態特性方面的根本性限制。
我們提出「生成圖像思維」這一新穎範式,它從根本上改變了大型多模態模型(LMMs)在視覺推理中的參與方式,使這些模型能夠通過自發生成中間視覺思維步驟,在文本與視覺模態之間進行原生思考。目前,LMMs的視覺推理僅限於處理用戶提供的固定圖像或僅通過基於文本的思維鏈(CoT)進行推理。「生成圖像思維」開啟了認知能力的新維度,使模型能夠主動構建中間視覺思維,批判自身的視覺假設,並將其作為推理過程的組成部分進行精煉。我們通過兩種互補機制展示了該方法的有效性:(1)帶有中間視覺子目標的視覺生成,模型將複雜的視覺任務分解為可管理的組件,並逐步生成與整合;(2)帶有自我批判的視覺生成,模型生成初始視覺假設,通過文本推理分析其不足,並基於自身批判生成精煉的輸出。我們在視覺生成基準測試中的實驗顯示,相較於基線方法,該方法取得了顯著改進,模型在處理複雜多物體場景時的相對改進高達50%(從38%提升至57%)。從探索新型蛋白質結構的生物化學家、迭代空間設計的建築師,到重建犯罪現場的法醫分析師,以及構想戰略戰術的籃球運動員,我們的方法使AI模型能夠參與到那種體現人類創造性、分析性和戰略性思維的視覺想像與迭代精煉中。我們已在https://github.com/GAIR-NLP/thinking-with-generated-images發布了開源套件。
本研究探討了利用強化學習(Reinforcement Learning, RL)來提升大型語言模型(Large Language Model, LLM)代理推理能力的方法。具體而言,我們聚焦於多輪工具使用情境,這些情境可自然地建模為馬可夫決策過程(Markov Decision Processes, MDPs)。現有方法通常在多輪LLM代理的訓練中採用軌跡層面的優勢估計,然而在面對多個決策步驟時,這些方法難以實現輪次層面的信用分配,從而限制了其在多輪推理任務中的表現。為解決此問題,我們引入了一種細粒度的輪次層面優勢估計策略,以實現更精確的多輪代理互動信用分配。該策略具有通用性,可整合至多種RL算法中,例如群組相對偏好優化(Group Relative Preference Optimization, GRPO)。我們在多輪推理及基於搜索的工具使用任務中對GRPO實現進行了實驗評估,結果凸顯了MDP框架及輪次層面信用分配在提升LLM代理於複雜決策情境下多輪推理能力方面的有效性。我們的方法在工具執行上達到了100%的成功率,並在精確答案匹配上取得了50%的準確率,顯著超越了基線方法,後者未能成功調用工具且僅達到20-30%的精確匹配準確率。
大型語言模型(LLMs)通過測試時擴展方法展現了卓越的推理能力,尤其是在使用從更強大的大型推理模型(LRMs)中蒸餾出的思維鏈(CoT)數據進行微調時。然而,這些推理鏈通常包含冗餘元素,這些元素反映了人類解決問題的過程,可分為漸進式推理(核心解決方案的發展路徑)和功能性元素(驗證過程、替代解決方案方法及錯誤修正)。雖然漸進式推理至關重要,但功能性元素在測試時推理過程中顯著增加了計算需求。我們引入了PIR(基於困惑度的重要性精煉),這是一個基於原則的框架,它根據每個推理步驟對答案預測置信度的影響來定量評估其重要性。PIR系統地識別並選擇性地修剪僅低重要性的功能性步驟,同時保留漸進式推理組件,從而創建出優化的訓練數據,這些數據在保持核心解決路徑完整性的同時減少了冗餘。在PIR優化數據上微調的模型展現了優越的測試時擴展特性,生成更簡潔的推理鏈,同時在具有挑戰性的推理基準(AIME、AMC和GPQA Diamond)上實現了更高的準確率(+0.9%至+6.6%),並顯著降低了令牌使用量(-3%至-41%)。我們的方法在不同模型大小、數據來源和令牌預算下展現了強大的泛化能力,為在高效測試時擴展、響應時間和計算效率作為重要約束的場景中部署具備推理能力的LLMs提供了實用解決方案。
有效檢索、推理並理解視覺豐富的信息,對於RAG方法而言仍是一大挑戰。傳統基於文本的方法無法處理與視覺相關的信息。另一方面,現有的基於視覺的RAG方法常受限於固定流程,且由於模型基礎能力激活不足,往往難以有效進行推理。鑑於RL已被證明對模型推理有益,我們引入了VRAG-RL,這是一個專為跨視覺豐富信息的複雜推理而設計的新穎RL框架。在此框架下,VLMs與搜索引擎互動,借助視覺感知標記自主採樣單輪或多輪推理軌跡,並基於這些樣本進行持續優化。我們的方法凸顯了RL在RAG領域的關鍵限制:(i) 先前的多模態RAG方法往往僅將圖像融入上下文,導致推理標記分配不足,忽視了視覺特有的感知;(ii) 當模型與搜索引擎互動時,其查詢常因無法清晰表達需求而未能檢索到相關信息,從而導致性能欠佳。為應對這些挑戰,我們定義了一個專為視覺豐富輸入量身定制的動作空間,包括裁剪和縮放等動作,使模型能從粗到細的視角收集信息。此外,為彌合用戶原始查詢與檢索器之間的差距,我們採用了一種簡單而有效的獎勵機制,該機制整合了查詢重寫與檢索性能,並結合了基於模型的獎勵。我們的VRAG-RL利用專門設計的RL策略優化VLMs以適應RAG任務,使模型與實際應用場景對齊。代碼可在https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}獲取。
近期,在视频扩散模型(VDMs)中关于三维相机控制的研究方法常通过渲染基于标注相机轨迹估计的点云来创建锚定视频,以此作为结构化先验引导扩散模型。然而,点云估计中的固有误差往往导致锚定视频不准确。此外,对大量相机轨迹标注的需求进一步增加了资源消耗。针对这些局限,我们提出了EPiC,一种高效且精确的相机控制学习框架,它无需昂贵的相机轨迹标注即可自动构建高质量的锚定视频。具体而言,我们通过基于首帧可见性对源视频进行掩码处理,为训练创建高度精确的锚定视频。这一方法确保了高对齐度,省去了相机轨迹标注的需求,因而可轻松应用于任何野外视频,生成图像到视频(I2V)的训练对。此外,我们引入了Anchor-ControlNet,一个轻量级的条件模块,它将锚定视频在可见区域的引导集成到预训练的VDMs中,其参数量不到主干模型的1%。通过结合提出的锚定视频数据和ControlNet模块,EPiC实现了高效训练,大幅减少了参数量、训练步骤和数据需求,且无需对扩散模型主干进行通常用于缓解渲染错位的修改。尽管我们的方法是在基于掩码的锚定视频上训练的,但在推理时,它能够稳健地泛化到使用点云制作的锚定视频,从而实现精确的三维感知相机控制。EPiC在RealEstate10K和MiraData数据集上的I2V相机控制任务中达到了SOTA性能,定量和定性上均展示了其精确且稳健的相机控制能力。值得注意的是,EPiC在视频到视频场景中也展现出了强大的零样本泛化能力。
圖像重標註技術被廣泛應用於生成高質量的訓練數據集,以支持多種多模態任務。現有的重標註方法通常依賴於強大的多模態大語言模型(MLLMs)來增強文本描述,但往往因幻覺現象和細粒度細節缺失而導致描述不準確或不完整。為解決這些問題,我們提出了RICO,一個通過視覺重建來精煉標註的新框架。具體而言,我們利用文本到圖像模型將標註重建為參考圖像,並提示MLLM識別原始圖像與重建圖像之間的差異,從而精煉標註。這一過程迭代進行,進一步逐步促進生成更忠實且全面的描述。為減輕迭代過程帶來的額外計算成本,我們引入了RICO-Flash,它學習使用DPO生成類似RICO的標註。大量實驗表明,我們的方法顯著提高了標註的準確性和完整性,在CapsBench和CompreCap上均優於大多數基線約10%。代碼已發佈於https://github.com/wangyuchi369/RICO。
傳統的RLHF(基於人類反饋的強化學習)使用粗糙的標量獎勵來優化語言模型,這種方法掩蓋了成功或失敗背後的細微原因,導致學習過程緩慢且不透明。近期研究通過提示或反思的方式,以文本批評來增強RL,雖然提升了可解釋性,但並未觸及模型參數的調整。我們提出了Text2Grad,這是一種將自由形式的文本反饋轉化為片段級梯度的強化學習範式。在接收到人類(或程序化)的批評後,Text2Grad將每條反饋短語與相關的詞元片段對齊,將這些對齊轉化為可微分的獎勵信號,並執行梯度更新,直接精煉模型策略中的問題部分。這產生了精確的、基於反饋的調整,而非全局性的微調。Text2Grad通過三個組件實現:(1) 一個高質量的反饋-註釋管道,將批評與詞元片段配對;(2) 一個細粒度的獎勵模型,在生成解釋性批評的同時預測答案的片段級獎勵;以及(3) 一個片段級策略優化器,反向傳播自然語言梯度。在摘要生成、代碼生成和問答任務中,Text2Grad一致超越了基於標量獎勵的RL和僅使用提示的基線方法,不僅提供了更高的任務指標,還增強了可解釋性。我們的結果表明,當自然語言反饋被轉化為梯度時,它是一種強大的信號,用於細粒度的策略優化。我們方法的代碼可在https://github.com/microsoft/Text2Grad獲取。
視覺語言模型(VLMs)通常將一個中等規模的視覺編碼器與一個大型語言模型(LLM,如Llama-70B)配對,這使得解碼器成為訓練過程中的主要計算負擔。為了降低成本,一個潛在且具有前景的策略是首先使用一個小型語言模型訓練視覺編碼器,然後再將其遷移到大型模型上。我們構建了小型“代理模型”,這些模型通過直接繼承大型目標LLM的淺層,共享相同的嵌入空間和表示語言。在代理模型上訓練的視覺編碼器可以直接遷移到更大的模型中,這一過程我們稱之為零次嫁接——當直接插入到完整尺寸的目標LLM時,嫁接後的組合超越了編碼器-代理模型的組合,在某些基準測試中,甚至與使用目標LLM進行完整解碼器訓練的性能相當。此外,當使用Llama-70B作為解碼器時,我們的代理訓練方法將整體VLM訓練成本降低了約45%。
從文本提示生成高品質、多層透明圖像,能夠開啟創意控制的新層次,讓使用者能像編輯大型語言模型(LLM)的文本輸出一樣輕鬆地編輯每一層。然而,由於缺乏大規模、高品質的多層透明數據集,多層生成模型的發展落後於傳統的文本到圖像模型。在本論文中,我們通過以下方式應對這一根本挑戰:(i) 發布首個開放的超高保真PrismLayers(PrismLayersPro)數據集,包含20萬(2萬)張帶有精確Alpha遮罩的多層透明圖像;(ii) 引入一種無需訓練的合成管道,利用現成的擴散模型按需生成此類數據;(iii) 提供一個強大的開源多層生成模型ART+,其美學效果與現代文本到圖像生成模型相媲美。關鍵技術貢獻包括:LayerFLUX,擅長生成帶有精確Alpha遮罩的高品質單層透明圖像;以及MultiLayerFLUX,根據人工標註的語義佈局將多個LayerFLUX輸出組合成完整圖像。為確保更高品質,我們應用嚴格的過濾階段去除偽影和語義不匹配,並進行人工篩選。在我們的合成PrismLayersPro數據集上微調最先進的ART模型,得到ART+,其在60%的用戶對比研究中表現優於原始ART,甚至與FLUX.1-[dev]模型生成的圖像視覺品質相當。我們預計,這項工作將為多層透明圖像生成任務奠定堅實的數據集基礎,推動需要精確、可編輯且視覺效果出色的分層圖像的研究與應用。
可信的驗證器對於強化學習中可驗證獎勵(RLVR)的成功至關重要,這是諸如DeepSeek-R1等多種大型推理模型背後的核心方法論。在數學推理等複雜領域,基於規則的驗證器在先前的研究中已被廣泛採用,用以訓練強大的推理模型。然而,這些驗證器的可靠性及其對RL訓練過程的影響仍鮮為人知。本研究以數學推理為案例,對多種驗證器在靜態評估與RL訓練情境下進行了全面分析。首先,我們發現當前開源的基於規則的驗證器在多個常用數學數據集上,往往無法識別以不同格式呈現的等效答案,導致不可忽視的假陰性率。這一限制對RL訓練性能產生負面影響,並隨著策略模型的增強而愈發顯著。隨後,我們探討了基於模型的驗證器作為解決這些限制的潛在方案。雖然靜態評估顯示基於模型的驗證器實現了顯著更高的驗證準確率,但進一步分析及RL訓練結果表明,它們極易受到攻擊,即錯誤地將回應中的某些模式分類為正確(即假陽性)。這一脆弱性在策略模型優化過程中被利用,導致獎勵被人為誇大。我們的研究結果揭示了基於規則與基於模型的驗證器各自固有的獨特風險,旨在為開發更為穩健的強化學習獎勵系統提供寶貴見解。
蛋白質預測任務的多樣性傳統上需要專門的模型,這阻礙了廣泛適用且計算高效的蛋白質語言模型(PLMs)的發展。在本研究中,我們引入了Prot2Token,這是一個統一框架,通過將從序列級特性、殘基特定屬性到複雜的蛋白質間相互作用等多種蛋白質相關預測轉化為標準化的下一個標記預測格式,克服了這些挑戰。Prot2Token的核心採用了一個自迴歸解碼器,該解碼器基於預訓練蛋白質編碼器的嵌入,並由可學習的任務標記引導,以執行多樣化的預測。這種架構獨特地促進了多任務學習,使單一模型能夠以更高的效率掌握多項任務。我們在各種基準上進行了廣泛的實驗驗證,展示了Prot2Token在不同類型蛋白質預測任務中的強大預測能力。關鍵結果包括顯著的加速(例如,相比AlphaFold2與MSA的近1000倍)以及性能往往匹配或超越專門方法。此外,我們引入了一種輔助的自監督解碼器預訓練方法,以提高空間敏感任務的表現。因此,Prot2Token為蛋白質建模提供了一個多功能、高通量的範式,有望加速生物學發現和新療法的開發。代碼可在https://github.com/mahdip72/prot2token 獲取。
漫畫,或稱日本漫畫,是一種融合圖像與文字於複雜敘事中的多模態藝術形式。教導大型多模態模型(LMMs)以接近人類的理解水平來解讀此類敘事,有助於漫畫創作者反思並精煉其故事。為此,我們引入了兩個用於多模態漫畫理解的基準:MangaOCR,專注於頁面內文字識別;以及MangaVQA,一個新穎的基準,旨在通過視覺問答來評估上下文理解能力。MangaVQA包含526組高質量、手工構建的問題-答案對,確保了在多樣化敘事與視覺情境下的可靠評估。基於這些基準,我們開發了MangaLMM,這是一個專為漫畫設計的模型,由開源LMM Qwen2.5-VL微調而來,能夠同時處理上述兩項任務。通過廣泛的實驗,包括與GPT-4o和Gemini 2.5等專有模型的比較,我們評估了LMMs對漫畫的理解程度。我們的基準與模型為在多模態敘事領域——漫畫中評估和推進LMMs提供了全面的基礎。
文本到圖像(T2I)擴散模型在生成建模方面取得了顯著進展;然而,它們在推理速度與圖像質量之間面臨著取捨,這為高效部署帶來了挑戰。現有的蒸餾T2I模型能夠以較少的採樣步驟生成高保真圖像,但通常在多樣性和質量上存在困難,特別是在一步模型中。通過我們的分析,我們觀察到UNet編碼器中存在冗餘計算。我們的研究發現表明,對於T2I擴散模型,解碼器更擅長捕捉更豐富且更明確的語義信息,而編碼器則可以有效地在不同時間步的解碼器之間共享。基於這些觀察,我們首次為學生模型UNet架構引入了時間獨立統一編碼器TiUE,這是一種無環路的圖像生成方法,用於蒸餾T2I擴散模型。採用一次性方案,TiUE在多個解碼器時間步之間共享編碼器特徵,實現了並行採樣並顯著降低了推理時間複雜度。此外,我們引入了KL散度項來正則化噪聲預測,從而增強了生成圖像的感知真實性和多樣性。實驗結果表明,TiUE在包括LCM、SD-Turbo和SwiftBrushv2在內的先進方法中表現優異,在保持計算效率的同時,生成了更多樣且更真實的結果。
生成式AI模型經常學習並重現其訓練語料庫中存在的錯誤資訊。本立場文件主張,類似於生物免疫接種中通過受控接觸減弱病原體來建立免疫力,AI模型應在少量、隔離的明確標記的虛假資訊集上進行微調,作為對抗錯誤資訊的「疫苗」。這些精心策劃的虛假示例在微調過程中定期注入,增強模型識別和拒絕誤導性主張的能力,同時保持對真實輸入的準確性。一個示範性案例研究表明,接種疫苗的模型生成的錯誤資訊顯著少於基準模型。據我們所知,這是第一個將經過事實核查的虛假資訊本身視為監督疫苗的訓練框架,而非依賴輸入擾動或通用的人類反饋信號,來強化模型以抵禦未來的錯誤資訊。我們還概述了確保虛假數據安全使用的倫理保障和治理控制措施。模型免疫接種為使AI系統與事實性保持一致提供了一種主動的範式。
即時風格化三維場景,同時保持多視角一致性並忠實地模仿風格圖像,仍是一大挑戰。當前最先進的三維風格化方法通常需要計算密集的測試時優化,將藝術特徵轉移至預訓練的三維表示中,且往往依賴於密集的姿態輸入圖像。相反,我們利用前饋重建模型的最新進展,展示了一種新穎的方法,能在不到一秒的時間內,使用未定位的稀疏視角場景圖像和任意風格圖像,實現直接的三維風格化。為解決重建與風格化之間固有的解耦問題,我們引入了一種分支架構,分離結構建模與外觀著色,有效防止風格轉移扭曲底層的三維場景結構。此外,我們採用身份損失,通過新視角合成任務促進風格化模型的預訓練。這一策略還使我們的模型在微調以適應風格化的同時,保留了原有的重建能力。通過使用域內和域外數據集進行的全面評估表明,我們的方法能生成高質量的風格化三維內容,實現風格與場景外觀的優越融合,同時在多視角一致性和效率方面也超越了現有方法。
有效的數據選擇對於現代大型語言模型(LLMs)的高效訓練至關重要。本文介紹了影響蒸餾(Influence Distillation),這是一種新穎且數學上合理的數據選擇框架,利用二階信息來最優化地加權訓練樣本。通過蒸餾每個樣本對目標分佈的影響,我們的方法分配了模型特定的權重,用於選擇LLM微調的訓練數據,引導其在目標領域上實現強勁性能。我們為梯度下降(Gradient Descent)和Adam優化器推導了這些最優權重。為了確保可擴展性並降低計算成本,我們提出了一種基於地標的近似方法:精確計算一小部分“地標”樣本的影響,然後高效地傳播到所有其他樣本以確定其權重。我們通過在Tulu V2數據集上應用影響蒸餾進行指令微調,針對包括GSM8k、SQuAD和MMLU在內的多項任務,並在多個Llama和Qwen家族的模型上進行了驗證。實驗表明,影響蒸餾在匹配或超越最先進性能的同時,實現了高達3.5倍的選擇速度提升。
視覺語言模型(VLMs)的最新進展在視覺推理任務中展現了卓越的性能。然而,地理定位任務面臨獨特的挑戰,需要從圖像中提取多層次的視覺線索,並將其與外部世界知識進行系統性整合以進行推理。當前的地理定位方法往往缺乏穩健的推理機制和可解釋性,限制了其有效性。為解決這些限制,我們提出了地理推理增強套件(GRE Suite),這是一個新穎的框架,通過結構化的推理鏈增強VLMs,以實現準確且可解釋的位置推斷。GRE Suite在三個關鍵維度上系統性地開發:數據集、模型和基準。首先,我們引入了GRE30K,這是一個高質量的地理定位推理數據集,旨在促進細粒度的視覺和上下文分析。接著,我們提出了GRE模型,該模型採用多階段推理策略,逐步推斷場景屬性、局部細節和語義特徵,從而精確縮小潛在的地理區域範圍。最後,我們構建了地理推理評估基準(GREval-Bench),這是一個全面的評估框架,用於評估VLMs在多樣化的城市、自然和地標場景中的表現,測量其粗粒度(如國家、大陸)和細粒度(如城市、街道)的定位性能。實驗結果表明,GRE在所有層次的地理定位任務中均顯著優於現有方法,凸顯了推理增強型VLMs在複雜地理推斷中的有效性。代碼和數據將在https://github.com/Thorin215/GRE 發布。
生成式視頻模型的爆炸性增長,加劇了對AI生成內容可靠版權保護的需求。儘管隱形生成水印在圖像合成中廣受歡迎,但在視頻生成領域仍鮮有探索。為填補這一空白,我們提出了Safe-Sora,這是首個將圖形水印直接嵌入視頻生成過程的框架。基於水印性能與水印和封面內容視覺相似度密切相關的觀察,我們引入了一種分層的從粗到細的自適應匹配機制。具體而言,水印圖像被分割成多個區塊,每個區塊被分配給視覺上最相似的視頻幀,並進一步定位到最佳空間區域以實現無縫嵌入。為了實現水印區塊在視頻幀間的時空融合,我們開發了一種3D小波變換增強型Mamba架構,配備新穎的時空局部掃描策略,有效建模了水印嵌入和檢索過程中的長程依賴關係。據我們所知,這是首次將狀態空間模型應用於水印技術,為高效且魯棒的水印保護開闢了新途徑。大量實驗表明,Safe-Sora在視頻質量、水印保真度和魯棒性方面均達到了最先進的性能,這在很大程度上歸功於我們的提案。我們將在論文發表後公開代碼。
強化學習(RL)在機器人領域推動了顯著進展,但其複雜性和漫長的訓練時間仍是主要瓶頸。在本報告中,我們介紹了FastTD3,這是一種簡單、快速且高效的RL算法,能顯著加速在HumanoidBench、IsaacLab和MuJoCo Playground等流行套件中的人形機器人訓練。我們的方案極為簡潔:我們訓練了一個離策略的TD3代理,並進行了多項改進——並行模擬、大批量更新、分佈式評論家以及精心調校的超參數。FastTD3在單塊A100 GPU上不到3小時內解決了一系列HumanoidBench任務,同時在訓練過程中保持穩定。我們還提供了一個輕量級且易於使用的FastTD3實現,以加速機器人領域的RL研究。
大型语言模型(LLMs)的微调显著提升了其指令遵循能力,然而推动这些改进的底层计算机制仍鲜为人知。本研究通过分离并分析指令特定的稀疏组件——即密集模型中的神经元以及混合专家(MoE)架构中的神经元与专家——系统地探讨了微调如何重新配置LLM的计算。特别地,我们引入了HexaInst,一个精心策划且平衡的指令数据集,涵盖六个不同类别,并提出了SPARCOM这一新颖的分析框架,该框架包含三项关键贡献:(1)识别这些稀疏组件的方法,(2)评估其功能通用性与独特性,以及(3)系统比较其变化。通过实验,我们展示了这些组件在指令执行中的功能通用性、独特性及其关键作用。通过阐明微调引发的适应与稀疏计算基础之间的关系,本研究为可信赖的LLM社区深入理解LLMs如何内化指令遵循行为提供了更深刻的洞见。
智能導學系統與大型語言模型相結合,為滿足學生多樣化需求及促進自我效能學習提供了一種極具前景的方法。儘管大型語言模型具備良好的電氣工程基礎知識,但在處理電路相關的具體問題上仍顯不足。本文介紹了AITEE,一種基於代理的電氣工程導學系統,旨在伴隨學生整個學習過程,提供個性化支持,並推動自主學習。AITEE通過適應性的電路重建過程,支持手繪與數字電路,實現了與學生的自然互動。我們新穎的基於圖的相似度度量方法,通過檢索增強生成策略從講義材料中識別相關上下文,而並行的Spice模擬進一步提升了解決方法應用的準確性。該系統採用蘇格拉底式對話,通過引導性提問培養學習者自主性。實驗評估表明,AITEE在領域特定知識應用上顯著優於基準方法,即使是中等規模的LLM模型也展現了可接受的性能。我們的研究結果凸顯了代理型導師在為電氣工程教育提供可擴展、個性化且高效的學習環境方面的潛力。
視覺語言模型(VLMs)在多模態任務中取得了顯著進展。然而,在長上下文場景中,尤其是長視頻中,其性能往往會下降。雖然旋轉位置嵌入(RoPE)在大語言模型(LLMs)中已被廣泛採用以實現長度泛化,但將原始RoPE擴展以捕捉視頻中複雜的時空依賴性仍然是一個未解決的挑戰。現有方法通常分配RoPE中的不同頻率來編碼3D位置信息。然而,這些分配策略主要依賴於啟發式方法,缺乏深入的理論分析。在本文中,我們首先研究了不同的分配策略如何影響VLMs的長上下文能力。我們的分析表明,當前的多模態RoPE無法可靠地捕捉長上下文中的語義相似性。為了解決這個問題,我們提出了HoPE,一種混合位置嵌入,旨在提升VLMs的長上下文能力。HoPE引入了一種混合頻率分配策略,用於在任意長上下文中進行可靠的語義建模,以及一種動態時間縮放機制,以促進在不同上下文長度下的穩健學習和靈活推理。在四個視頻基準上的廣泛實驗,涵蓋長視頻理解和檢索任務,證明了HoPE始終優於現有方法,確認了其有效性。代碼可在https://github.com/hrlics/HoPE獲取。
開源機器學習(ML)資源(如模型和數據集)的快速增長,加速了信息檢索(IR)研究的進展。然而,現有平台如Hugging Face並未明確利用結構化表示,這限制了高級查詢和分析,例如追蹤模型演變和推薦相關數據集。為填補這一空白,我們構建了HuggingKG,這是首個基於Hugging Face社區的大規模知識圖譜,專用於ML資源管理。HuggingKG包含260萬個節點和620萬條邊,捕捉了領域特定的關係和豐富的文本屬性。基於此,我們進一步推出了HuggingBench,這是一個多任務基準,包含三個新穎的測試集,用於資源推薦、分類和追蹤等IR任務。我們的實驗揭示了HuggingKG及其衍生任務的獨特特性。這兩項資源均已公開,預計將推動開源資源共享與管理的研究進展。
理解高級視覺皮層中的功能表徵是計算神經科學中的一個基本問題。雖然在大規模數據集上預訓練的人工神經網絡展現出與人類神經反應的顯著表徵對齊,但學習視覺皮層的可計算圖像模型依賴於個體層面的大規模功能性磁共振成像(fMRI)數據集。昂貴、耗時且往往不切實際的數據獲取需求限制了編碼器對新受試者和刺激的泛化能力。BraInCoRL利用上下文學習,從少量示例中預測體素級神經反應,無需對新受試者和刺激進行額外的微調。我們採用了一種能夠靈活適應可變數量上下文圖像刺激的變壓器架構,學習多個受試者的歸納偏差。在訓練過程中,我們明確優化模型以進行上下文學習。通過聯合條件化圖像特徵和體素激活,我們的模型學會直接生成性能更優的高級視覺皮層體素級模型。我們證明,在低數據情況下,BraInCoRL在評估全新圖像時始終優於現有的體素級編碼器設計,同時展現出強大的測試時擴展行為。該模型還能夠泛化到一個全新的視覺fMRI數據集,該數據集使用不同的受試者和fMRI數據獲取參數。此外,BraInCoRL通過關注語義相關的刺激,促進了對高級視覺皮層神經信號的更好解釋。最後,我們展示了我們的框架能夠實現從自然語言查詢到體素選擇性的可解釋映射。
尽管大型语言模型(LLMs)在简体中文和繁体中文中的能力已被广泛研究,但尚不清楚当以这两种书面中文变体提示时,LLMs是否表现出不同的性能。这一理解至关重要,因为LLM响应质量的差异可能会忽视简体中文与繁体中文背后不同的文化背景,从而延续代表性伤害,并在教育或招聘等领域的LLM辅助决策中加剧下游伤害。为了调查潜在的LLM性能差异,我们设计了两个反映现实场景的基准任务:区域术语选择(提示LLM为描述的项目命名,该项目在中国大陆和台湾有不同的称呼)和区域姓名选择(提示LLM从简体中文和繁体中文的姓名列表中选择雇佣对象)。对于这两项任务,我们审计了11个领先的商业LLM服务和开源模型的性能——涵盖主要训练于英语、简体中文或繁体中文的模型。我们的分析表明,LLM响应中的偏见既依赖于任务也依赖于提示语言:在区域术语选择任务中,大多数LLM不成比例地偏向简体中文响应,而在区域姓名选择任务中,它们却出人意料地偏向繁体中文姓名。我们发现这些差异可能源于训练数据表示、书写字符偏好以及简体中文和繁体中文分词方式的差异。这些发现强调了进一步分析LLM偏见的必要性;因此,我们提供了一个开源的基准数据集,以促进未来LLM在中文变体间行为的可重复评估(https://github.com/brucelyu17/SC-TC-Bench)。
物体朝向理解是视觉感知中的一项基础性挑战,对于机器人操作和增强现实等应用至关重要。现有的视觉-语言基准测试未能有效隔离这一能力,常将其与位置关系及整体场景理解混为一谈。我们提出了DORI(判别式朝向推理智能),这是一个全面评估物体朝向感知能力的基准测试,将物体朝向理解确立为主要评估目标。DORI从四个维度评估朝向理解:正面对齐、旋转变换、相对方向关系以及标准朝向理解。通过精心设计来自11个数据集、涵盖67个物体类别、跨越合成与现实场景的任务,DORI深入探讨了多模态系统如何理解物体朝向。我们对15种最先进的视觉-语言模型的评估揭示了关键局限:即使在粗粒度任务上,最佳模型的准确率也仅为54.2%,而在细粒度朝向判断上则降至33.0%,且当任务涉及参考系转换或复合旋转时,性能进一步下降。这些发现表明,模型在精确角度估计、跨视角追踪朝向变化以及理解复合旋转方面存在系统性不足,暗示其内部三维空间表征的局限性。作为首个专门针对多模态系统朝向意识设计的诊断框架,DORI为提升机器人控制、三维场景重建以及物理环境中的人机交互提供了启示。DORI数据访问:https://huggingface.co/datasets/appledora/DORI-Benchmark
視頻時間理解對於多模態大型語言模型(MLLMs)在推理視頻事件中至關重要。儘管在通用視頻理解方面取得了最新進展,當前的MLLMs在細粒度時間推理上仍面臨挑戰。雖然近期已探索使用強化學習(RL)來解決這一問題,但現有的RL方法在效果上仍顯不足。本研究提出MUSEG,一種新穎的基於RL的方法,通過引入時間戳感知的多片段定位來增強時間理解能力。MUSEG使MLLMs能夠將查詢與多個相關視頻片段對齊,從而促進更全面的時間推理。為了實現有效學習,我們設計了一種定制的RL訓練方案,採用分階段獎勵,逐步引導模型進行時間定位推理。在時間定位和時間敏感視頻問答任務上的大量實驗表明,MUSEG顯著優於現有方法,並在多樣化的時間理解場景中展現出良好的泛化能力。請訪問我們的項目頁面:https://github.com/THUNLP-MT/MUSEG。
大型語言模型(LLMs)在預訓練過程中常會習得於下游部署中不適宜的知識,例如敏感資訊或受版權保護的內容。現有移除此類知識的方法依賴於微調、訓練低秩適配器或事實層面的編輯,但這些方法要么過於粗糙,要么過於淺顯,或效果不佳。在本研究中,我們提出了PISCES(精確參數內抑制概念消除),這是一種新穎的框架,旨在通過直接編輯參數空間中編碼概念的方向,從模型參數中精確地消除整個概念。PISCES利用解耦模型將多層感知器(MLP)向量分解為可解釋的特徵,使用自動化可解釋性技術識別與目標概念相關的特徵,並將其從模型參數中移除。在Gemma 2和Llama 3.1上針對多種概念的實驗顯示,PISCES在消除效果上相較於領先的消除方法取得了適度的提升,將目標概念的準確率降低至最低7.7%,同時顯著提高了消除的特異性(最高提升31%)和魯棒性(最高提升38%)。總體而言,這些結果表明,基於特徵的參數內編輯為語言模型中的概念知識移除提供了一種更為精確且可靠的方法。
語言-影像預訓練在二維醫學影像領域已展現出卓越性能,然而其在CT和MRI等三維模態中的應用仍受限於體積數據的高計算需求,這對大規模未經篩選的臨床研究訓練構成了顯著障礙。本研究提出了一種可擴展的三維醫學影像預訓練框架——層次化注意力語言-影像預訓練(HLIP)。HLIP借鑒了放射學數據的自然層次結構:切片、掃描和研究,採用了一種輕量級的層次化注意力機制。該機制展現出強大的泛化能力,例如,在CT-RATE數據集上預訓練後,於Rad-ChestCT基準測試中宏觀AUC提升了4.3%。此外,HLIP的計算效率使其能夠直接在未經篩選的數據集上進行訓練。通過對22萬名患者進行313萬次腦部MRI掃描及24萬名患者進行144萬次頭部CT掃描的訓練,HLIP達到了頂尖性能,如在公開可用的腦部MRI基準測試Pub-Brain-5上平衡準確率提升了32.4%;在頭部CT基準測試RSNA和CQ500上,宏觀AUC分別提升了1.4%和6.9%。這些結果表明,借助HLIP,直接在未經篩選的臨床數據集上進行預訓練,是三維醫學影像中語言-影像預訓練的一條可擴展且有效的路徑。相關代碼已公開於https://github.com/Zch0414/hlip。
理解和推斷文本中的因果關係是人類認知的核心要素,也是推動大型語言模型(LLMs)邁向人工通用智能的關鍵。現有研究主要集中於人工生成的文本,這些文本涉及簡單且明確提及的因果關係,未能反映現實世界任務的複雜性。本文探討了LLMs是否能夠從現實世界的文本中推斷出因果關係。我們開發了一個基於現實學術文獻的基準測試,該測試涵蓋了不同長度、關係複雜性(包括不同層次的明確性、事件數量及因果關係)以及多個領域和子領域的多樣化文本。據我們所知,這是該任務首個現實世界的數據集。我們在最先進的LLMs上進行的實驗顯示,即使在我們提出的基準測試上,表現最佳的模型平均F1分數也僅為0.477,面臨顯著挑戰。分析揭示了常見的缺陷:難以處理隱含信息、區分相關因果因素與上下文細節,以及連接分散在長篇文本中的因果相關信息。通過系統地描述這些不足,我們的基準測試為進一步研究提升LLM因果推理能力提供了針對性的見解。
測試時縮放(Test-time scaling, TTS)通過在推理過程中動態分配計算資源,為提升大型語言模型的推理能力提供了一條有前景的途徑。現有的TTS方法雖表現良好,但通常依賴於較長的解碼路徑或需要生成大量樣本,從而增加了令牌使用量和推理延遲。我們觀察到一個令人驚訝的事實:在推理任務中,較短的追蹤路徑比長路徑更有可能得出正確答案。基於此,我們引入了首達搜索(First Finish Search, FFS),這是一種無需訓練的並行解碼策略,它啟動n個獨立樣本並在任一完成時立即返回結果。我們將FFS與簡單解碼、束搜索、多數投票及預算強制等方法在四個推理模型(DeepSeek-R1、R1-Distill-Qwen-32B、QwQ-32B和Phi-4-Reasoning-Plus)及四個數據集(AIME24、AIME25-I、AIME25-II和GPQA Diamond)上進行了對比評估。使用DeepSeek-R1時,FFS在AIME數據集上達到了82.23%的準確率,相比DeepSeek-R1的獨立準確率提升了15%,幾乎與OpenAI的o4-mini性能持平。我們的理論分析闡明了為何在最短追蹤路徑處停止更可能獲得正確答案,並識別了早期停止可能次優的條件。FFS的優雅與簡潔證明了直觀的TTS策略能夠表現出色,揭示了在推理時簡單方法尚未開發的潛力。
儘管大型視覺語言模型(VLMs)在多模態任務中展現了卓越的性能,但其在人類智商測試上的真正推理能力仍未被充分探索。為了推進對VLMs流體智能的研究,我們引入了**IQBench**,這是一個旨在評估VLMs在標準化視覺智商測試上表現的新基準。我們專注於評估VLMs的推理能力,認為這比最終預測的準確性更為重要。**我們的基準以視覺為中心,最大限度地減少對不必要文本內容的依賴**,從而鼓勵模型主要從圖像信息中推導答案,而非依賴於學習到的文本知識。為此,我們手動收集並註釋了500道視覺智商問題,以**防止訓練過程中無意的數據洩露**。與以往主要關注最終答案準確性的研究不同,我們通過評估模型的解釋和解決每個問題所使用的模式,以及最終預測的準確性和人類評估,來評估模型的推理能力。我們的實驗顯示,不同任務之間存在顯著的性能差異,其中`o4-mini`、`gemini-2.5-flash`和`claude-3.7-sonnet`模型分別達到了0.615、0.578和0.548的最高平均準確率。然而,所有模型在3D空間和字謎推理任務上都表現不佳,這凸顯了當前VLMs在一般推理能力上的顯著局限性。在推理得分方面,`o4-mini`、`gemini-2.5-flash`和`claude-3.7-sonnet`分別以0.696、0.586和0.516的平均分位居前列。這些結果揭示了模型推理過程與最終答案之間的不一致性,強調了在評估最終預測之外,推理準確性的重要性。