每日精選AI研究論文及翻譯
视觉-语言-动作(VLA)模型近期展现出强大潜力,使机器人能够遵循语言指令并执行精确动作。然而,大多数VLA模型基于仅预训练于二维数据的视觉-语言模型,缺乏准确的空间感知能力,限制了其在三维物理世界中的操作性能。现有解决方案尝试引入如深度图或点云等显式三维传感器输入,但这些方法因传感器噪声、硬件异构性及现有数据集深度覆盖不全而面临挑战。另一些从二维图像估计三维线索的方法,也受限于深度估计器的性能瓶颈。我们提出空间强制对齐(Spatial Forcing, SF),一种简单而有效的对齐策略,无需依赖显式三维输入或深度估计器,即可隐式强制VLA模型发展空间理解能力。SF通过将VLA模型的中间视觉嵌入与预训练的三维基础模型生成的几何表示对齐,在中间层实施对齐,引导VLA模型编码更丰富的空间表示,从而提升动作精度。在仿真及真实环境中的大量实验表明,SF实现了最先进的成果,超越了基于二维和三维的VLA模型。此外,SF将训练速度最高提升至3.8倍,并在多种机器人任务中提高了数据效率。项目页面位于https://spatial-forcing.github.io/。
像素空間生成模型相較於其潛在空間對應模型,通常更難訓練且表現普遍較差,這導致了持續的性能與效率差距。本文提出了一種新穎的兩階段訓練框架,旨在為像素空間擴散模型和一致性模型彌合這一差距。在第一階段,我們預訓練編碼器以從乾淨圖像中捕捉有意義的語義,同時將這些語義與沿同一確定性採樣軌跡的點對齊,該軌跡將點從先驗分佈演變至數據分佈。在第二階段,我們將編碼器與隨機初始化的解碼器整合,並對完整模型進行端到端的微調,適用於擴散模型和一致性模型。我們的訓練框架在ImageNet數據集上展現了強大的實證性能。具體而言,我們的擴散模型在ImageNet-256上達到了2.04的FID分數,在ImageNet-512上達到了2.35的FID分數,僅需75次函數評估(NFE),在生成質量和效率上均大幅超越先前的像素空間方法,並在相當的訓練成本下與領先的基於VAE的模型相媲美。此外,在ImageNet-256上,我們的一致性模型在單次採樣步驟中實現了令人印象深刻的8.82 FID分數,顯著超越了其潛在空間對應模型。據我們所知,這標誌著首次成功地在不依賴預訓練VAE或擴散模型的情況下,直接在高分辨率圖像上訓練一致性模型。
大型語言模型(LLMs)在機器翻譯(MT)領域取得了顯著進展,然而其在網絡小說翻譯中的有效性仍不明確。現有的基準依賴於表面層次的指標,未能捕捉到這一文類的獨特特徵。為填補這些空白,我們引入了DITING,這是首個針對網絡小說翻譯的全面評估框架,從六個維度評估敘事與文化忠實度:成語翻譯、詞彙歧義、術語本地化、時態一致性、零代詞解析及文化安全性,並由超過18,000句中英雙語專家註釋的句子對提供支持。我們進一步提出了AgentEval,這是一個基於推理的多代理評估框架,模擬專家審議以評估超越詞彙重疊的翻譯質量,在七種測試的自動指標中與人類判斷的相關性最高。為了實現指標比較,我們開發了MetricAlign,這是一個包含300句對的元評估數據集,每句對均標註有錯誤標籤和標量質量評分。對十四種開源、閉源及商業模型的全面評估顯示,中文訓練的LLMs超越了規模更大的外國模型,而DeepSeek-V3則提供了最忠實且風格連貫的翻譯。我們的工作為探索基於LLM的網絡小說翻譯建立了新範式,並提供了公共資源以推動未來研究。
近期,基於多模態大語言模型(MLLMs)並通過對比學習(CL)進行微調的多模態嵌入方法展現出了令人矚目的成果,然而其優越性背後的深層原因尚未得到充分探討。本研究提出,MLLM基於方法的一個關鍵優勢源於生成式預訓練過程中實現的隱式跨模態對齊,在此過程中,語言解碼器學會在共享表示空間內利用多模態信號來生成單模態輸出。通過對各向異性和核相似性結構的分析,我們實證確認了MLLM表示中出現的潛在對齊,使得CL能夠作為一個輕量級的優化階段。基於這一洞察,我們提出了一種以語言為核心的全模態嵌入框架,命名為LCO-Emb。在多樣化的骨幹網絡和基準測試上的廣泛實驗證明了其有效性,在多個模態上達到了最先進的性能。此外,我們發現了一條生成-表示縮放定律(GRSL),表明通過對比優化獲得的表示能力與MLLM的生成能力呈正比增長。這表明提升生成能力已成為增強表示質量的有效範式。我們對GRSL提供了理論解釋,正式將MLLM的生成質量與其表示性能的上限聯繫起來,並在一個具有挑戰性的低資源視覺-文檔檢索任務上進行了驗證,顯示在CL之前持續進行生成式預訓練能夠進一步提升模型嵌入能力的潛力。代碼、模型及資源可在https://github.com/LCO-Embedding/LCO-Embedding獲取。
機器人學習正處於一個轉折點,這是由機器學習的快速進步和大規模機器人數據的日益可用性所驅動的。從傳統的基於模型的方法轉向數據驅動、基於學習的範式,正在釋放自主系統前所未有的能力。本教程將引領讀者探索現代機器人學習的版圖,從強化學習和行為克隆的基礎原理出發,直至能夠跨多種任務甚至不同機器人形態運作的通用、語言條件模型。這項工作旨在為研究人員和實踐者提供指南,我們的目標是讓讀者具備必要的概念理解和實用工具,以貢獻於機器人學習的發展,並提供在lerobot中實現的即用示例。
大型語言模型(LLMs)的進步催生了一種從代碼生成輔助到自主編碼代理的範式轉變,促成了一種名為「氛圍編碼」(Vibe Coding)的新開發方法論,其中開發者通過觀察結果而非逐行代碼理解來驗證AI生成的實現。儘管其具有變革潛力,這一新興範式的有效性仍未被充分探索,實證研究揭示了人機協作中意外的生產力損失和根本性挑戰。為填補這一空白,本調查首次對基於大型語言模型的氛圍編碼進行了全面而系統的審視,為這一變革性開發方法建立了理論基礎和實踐框架。通過對超過1000篇研究論文的系統分析,我們考察了整個氛圍編碼生態系統,審視了包括編碼用LLMs、基於LLM的編碼代理、編碼代理的開發環境以及反饋機制在內的關鍵基礎設施組件。我們首先通過一個約束馬爾可夫決策過程(Constrained Markov Decision Process)將氛圍編碼形式化,從而將其作為一門正式學科引入,該過程捕捉了人類開發者、軟件項目和編碼代理之間的動態三元關係。基於這一理論基礎,我們隨後將現有實踐綜合為五種不同的開發模型:無約束自動化、迭代對話協作、規劃驅動、測試驅動和上下文增強模型,從而提供了該領域的首個全面分類法。關鍵的是,我們的分析揭示,成功的氛圍編碼不僅依賴於代理能力,還依賴於系統化的上下文工程、完善的開發環境以及人機協作開發模型。
长期以来,目标检测领域一直由传统的基于坐标回归的模型主导,如YOLO、DETR和Grounding DINO。尽管近期有尝试利用多模态大语言模型(MLLMs)来解决这一任务,但它们面临着召回率低、预测重复、坐标不对齐等挑战。在本研究中,我们填补了这一空白,提出了Rex-Omni,一个拥有30亿参数规模的MLLM,实现了最先进的目标感知性能。在COCO和LVIS等基准测试中,Rex-Omni在零样本设置下的表现与基于回归的模型(如DINO、Grounding DINO)相当甚至超越。这一成就得益于三项关键设计:1)任务公式化:我们使用特殊令牌来表示从0到999的量化坐标,降低了模型的学习难度,并提高了坐标预测的令牌效率;2)数据引擎:我们构建了多个数据引擎,以生成高质量的定位、引用和指向数据,为训练提供了语义丰富的监督;3)训练流程:我们采用了两阶段训练过程,结合了在2200万数据上的监督微调与基于GRPO的强化后训练。这一强化学习后训练利用几何感知奖励,有效弥合了离散到连续坐标预测的差距,提高了框的准确性,并缓解了初始SFT阶段教师引导性质带来的预测重复等不良行为。除了传统检测外,Rex-Omni固有的语言理解能力使其具备了多样化的功能,如对象引用、指向、视觉提示、GUI定位、空间引用、OCR和关键点定位,所有这些都在专用基准上进行了系统评估。我们相信,Rex-Omni为更通用和语言感知的视觉感知系统铺平了道路。
檢索增強生成(Retrieval-Augmented Generation, RAG)已成為突破大型語言模型靜態訓練限制的基本範式。然而,現有RAG能力與現實世界信息環境之間存在顯著的不匹配。現代知識庫本質上是多模態的,包含豐富的文本內容、視覺元素、結構化表格和數學表達式的組合。然而,現有的RAG框架僅限於文本內容,在處理多模態文檔時存在根本性缺陷。我們提出了RAG-Anything,這是一個統一框架,能夠實現跨所有模態的全面知識檢索。我們的方法將多模態內容重新概念化為相互關聯的知識實體,而非孤立的數據類型。該框架引入了雙圖構建,以在統一表示中捕捉跨模態關係和文本語義。我們開發了跨模態混合檢索,結合了結構化知識導航與語義匹配。這使得在相關證據跨越多個模態的異質內容上進行有效推理成為可能。RAG-Anything在具有挑戰性的多模態基準測試中表現出卓越性能,相較於最先進的方法取得了顯著提升。在傳統方法失效的長文檔上,性能提升尤為明顯。我們的框架為多模態知識訪問建立了新範式,消除了制約當前系統的架構碎片化問題。我們的框架已開源於:https://github.com/HKUDS/RAG-Anything。
擴散模型近期在視頻修復領域取得了進展,但將其應用於現實世界的視頻超分辨率(VSR)仍面臨高延遲、計算成本過高以及對超高分辨率泛化能力不足的挑戰。本研究的目標是通過實現效率、可擴展性和實時性能,使基於擴散的VSR技術變得實用。為此,我們提出了FlashVSR,這是首個面向實時VSR的基於擴散的一步流式框架。FlashVSR在單個A100 GPU上對768x1408視頻的處理速度約為17 FPS,這得益於三項互補的創新:(i) 一個訓練友好的三階段蒸餾管道,實現了流式超分辨率;(ii) 局部約束的稀疏注意力機制,在彌合訓練與測試分辨率差距的同時,削減了冗餘計算;(iii) 一個微型條件解碼器,在不犧牲質量的前提下加速了重建過程。為了支持大規模訓練,我們還構建了VSR-120K,這是一個包含12萬個視頻和18萬張圖像的新數據集。大量實驗表明,FlashVSR能夠可靠地擴展到超高分辨率,並以相較於先前一步擴散VSR模型最高12倍的速度提升,達到了業界領先的性能。我們將公開代碼、預訓練模型和數據集,以促進基於擴散的高效VSR技術的未來研究。
擴散模型作為生成模型已取得顯著成功。然而,即便是訓練良好的模型,在生成過程中也可能累積誤差。這些誤差在應用任意引導以將樣本導向期望屬性時尤為棘手,因為這往往會破壞樣本的保真度。本文提出了一種通用解決方案,以應對擴散模型中觀察到的離流形現象。我們的方法利用時間預測器來估計每個時間步與期望數據流形的偏差,發現較大的時間間隔與生成質量下降相關。隨後,我們設計了一種新穎的引導機制——「時間對齊引導」(TAG),在生成過程中的每個時間步將樣本吸引回期望的流形。通過大量實驗,我們證明TAG能夠在每個時間步持續生成與期望流形緊密對齊的樣本,從而在各種下游任務中顯著提升生成質量。
大型語言模型(LLMs)在處理每個詞元時,需通過變壓器堆疊的所有層,這導致在處理簡單查詢時存在計算浪費,而在需要更深層推理的複雜查詢上則缺乏足夠的靈活性。自適應深度方法雖能提升效率,但先前的方法依賴於昂貴的推理時搜索、架構變更或大規模重新訓練,且實際應用中常因效率提升而犧牲準確性。我們引入了Dr.LLM,即LLM層的動態路由框架,這是一種可後裝的框架,為預訓練模型配備了輕量級的逐層路由器,決定跳過、執行或重複某個模塊。路由器通過顯式監督進行訓練:利用蒙特卡羅樹搜索(MCTS),我們導出在計算預算內保持或提升準確性的高質量層配置。我們的設計,包括用於穩定路由的窗口池化、帶類別平衡的焦點損失,以及瓶頸MLP路由器,確保了在類別不平衡和長序列情況下的魯棒性。在ARC(邏輯)和DART(數學)任務上,Dr.LLM將準確性提升了最多+3.4%個百分點,同時平均每個示例節省了5層。路由器在跨域任務(如MMLU、GSM8k、AIME、TruthfulQA、SQuADv2、GPQA、PIQA、AGIEval)上僅有0.85%的準確性下降,同時保持了效率,並在路由方法上最多領先+7.7%個百分點。總體而言,Dr.LLM展示了顯式監督的路由器能夠在不改變基礎權重的情況下,為凍結的LLMs進行預算感知、準確性驅動的推理提供後裝支持。
近期在具身人工智慧領域的進展,凸顯了視覺語言模型(VLMs)作為在複雜環境中具備感知、推理與互動能力的代理者的潛力。然而,表現最佳的系統依賴於大規模模型,部署成本高昂,而較小的VLMs則缺乏成功所需的知識與技能。為彌補這一差距,我們提出了具身推理代理(ERA),這是一個整合先驗知識學習與線上強化學習(RL)的兩階段框架。第一階段,具身先驗學習,從三類數據中提煉基礎知識:(1)軌跡增強先驗,通過更強模型生成的結構化推理來豐富現有軌跡數據;(2)環境錨定先驗,提供環境內知識與接地監督;(3)外部知識先驗,從環境外數據集中遷移通用知識。第二階段,我們開發了一個基於這些先驗的線上RL管道,進一步提升代理性能。為克服代理RL固有的挑戰,包括長時程、稀疏獎勵與訓練不穩定性,我們引入了三個關鍵設計:用於上下文管理的自我總結、密集獎勵塑形,以及回合級策略優化。在高層次規劃(EB-ALFRED)與低層次控制(EB-Manipulation)任務上的廣泛實驗表明,ERA-3B超越了基於提示的大模型與先前的訓練基線。具體而言,它在EB-ALFRED上整體提升了8.4%,在EB-Manipulation上提升了19.4%,相較於GPT-4o,並展現出對未見任務的強大泛化能力。總體而言,ERA為可擴展的具身智慧提供了一條實用路徑,為未來的具身AI系統提供了方法論上的洞見。
大型語言模型(LLMs)可作為世界模型,通過模擬未來狀態及預測行動結果來增強數位環境中代理的決策能力,從而可能消除成本高昂的試錯探索。然而,這一能力從根本上受到LLMs傾向於產生幻覺及其依賴靜態訓練知識的限制,這可能導致錯誤累積,阻礙長期視野的模擬。為系統性地探討LLMs是否適合用於世界建模,我們通過三項任務——下一狀態識別、全過程規劃對齊及里程碑轉變識別——來檢驗世界模型的兩項核心能力:未來狀態預測與獎勵估計。我們的分析顯示,儘管LLMs能有效捕捉即時下一狀態並識別有意義的狀態轉變,但其在全過程規劃中的表現迅速下降。這凸顯了LLMs在長期視野下可靠模擬環境動態方面的局限性。為應對這些限制,我們提出了檢索增強型世界模型(R-WoM),該模型通過整合從外部教程檢索的事實性、最新知識來錨定LLM的模擬。實驗表明,與基線相比,R-WoM在OSWorld和WebArena上分別實現了高達25.3%和18.1%的顯著提升,尤其在更長視野的模擬中展現出特別優勢。
近期,統一多模態模型(Unified Multimodal Models, UMMs)在整合視覺-語言生成與理解能力方面取得了顯著進展。然而,存在一個顯著的差距:模型強大的視覺理解能力往往無法有效轉移到其視覺生成上。模型可能基於用戶指令正確理解圖像,卻無法從文本提示生成忠實的圖像。這一現象直接引發了一個引人深思的問題:模型能否利用其理解模塊來獎勵其生成模塊,從而實現自我提升?為彌合這一差距並實現自我提升,我們引入了SRUM,這是一種自獎勵的後訓練框架,可直接應用於各種設計的現有UMMs。SRUM創建了一個反饋循環,其中模型自身的理解模塊充當內部「評估者」,提供糾正信號以改進其生成模塊,而無需額外的人類標註數據。為確保這一反饋的全面性,我們設計了一個全局-局部雙重獎勵系統。為應對圖像固有的結構複雜性,該系統提供多尺度指導:全局獎勵確保整體視覺語義和佈局的正確性,而局部獎勵則精細化對象層面的保真度。SRUM帶來了強大的能力並展現出良好的泛化性,在T2I-CompBench上的性能從82.18提升至88.37,在T2I-ReasonBench上從43.82提升至46.75。總體而言,我們的工作建立了一個強大的新範式,使UMMs的理解模塊能夠通過自獎勵來指導和增強其自身的生成能力。
儘管視覺生成領域近期取得了顯著進展,但現有的大多數架構仍依賴於獨立的圖像和文本編碼器。這種分離限制了擴散模型在跨模態推理和知識遷移方面的能力。先前嘗試彌合這一差距的方法通常利用視覺語言模型(VLM)的最後一層信息、採用多個視覺編碼器,或聯合訓練大型統一模型以實現文本和圖像生成,這些方法需要大量的計算資源和大規模數據,從而限制了其可及性。我們提出了UniFusion,這是一種基於擴散的生成模型,它以凍結的大型視覺語言模型(VLM)作為統一的多模態編碼器進行條件化。UniFusion的核心是層級注意力池化(LAP)機制,該機制從凍結VLM的文本和視覺標記中提取高層語義和低層細節,以條件化擴散生成模型。我們證明,在生成任務的文本-圖像對齊以及將視覺信息從VLM忠實遷移至擴散模型(這是編輯的關鍵)方面,LAP優於其他淺層融合架構。我們提出了基於VLM的靈活推理重寫注入(VERIFI),它僅在模型內提示重寫期間,根據VLM生成的文本標記來條件化擴散變換器(DiT)。VERIFI將條件分佈的對齊與VLM的推理能力相結合,從而增強了推理時的能力和靈活性。此外,針對編輯任務的微調不僅改善了生成任務的文本-圖像對齊,表明跨模態知識遷移的存在,還展現出極強的泛化能力。我們的模型在單一圖像編輯任務上訓練後,能夠零樣本泛化到多圖像參考場景,這進一步激勵了UniFusion統一編碼器設計的合理性。
訓練後對齊往往會降低大型語言模型(LLM)的多樣性,導致一種被稱為模式崩潰的現象。與先前研究將此效應歸因於算法限制不同,我們發現了一個根本且普遍存在於數據層面的驅動因素:偏好數據中的典型性偏見,即由於認知心理學中已確立的發現,註釋者系統性地偏好熟悉的文本。我們從理論上形式化了這種偏見,並在偏好數據集上進行了實證驗證,顯示其在模式崩潰中扮演了核心角色。基於此分析,我們引入了「言語化抽樣」(Verbalized Sampling, VS),這是一種簡單、無需訓練的提示策略,旨在規避模式崩潰。VS提示模型對一組回應進行概率分佈的言語化描述(例如,「生成5個關於咖啡的笑話及其對應的概率」)。全面的實驗表明,VS在創意寫作(詩歌、故事、笑話)、對話模擬、開放式問答以及合成數據生成等方面顯著提升了性能,且未犧牲事實準確性和安全性。例如,在創意寫作中,VS相比直接提示將多樣性提高了1.6至2.1倍。我們進一步觀察到一個新興趨勢,即能力更強的模型從VS中獲益更多。總之,我們的工作為模式崩潰提供了一個新的以數據為中心的視角,以及一個實用的推理時補救措施,有助於釋放預訓練生成模型的多樣性潛力。
Transformer語言模型之成功,廣被歸功於其點積注意力機制,該機制融合了一組關鍵設計原則:跨位置資訊混合(實現多詞彙交互)、序列依賴性激活(注意力權重適應每個輸入)、特定數學形式(點積相似度加softmax加權)以及查詢與鍵與演進隱藏狀態的耦合(將注意力錨定於當前層)。然而,這些原則各自之必要性大多未經檢驗。本研究中,我們系統性地解構注意力機制,設計了可控變體,選擇性地放寬這些原則,既應用於所有層面,也應用於僅部分層保留標準注意力的混合架構中。實證分析揭示,詞彙混合機制不可或缺,其缺失會導致模型行為近乎隨機,而精確的數學形式與序列依賴性則可大幅放寬,特別是在僅保留於部分層時。令人驚訝的是,即便孤立情況下失效的變體,在與標準注意力交織時也能展現穩健性能,凸顯了一種協同效應。這些發現深化了我們對注意力有效性真正基礎的理解,並為在不犧牲性能的前提下簡化語言模型開闢了新途徑。
大型語言模型在處理長期代理任務時面臨挑戰,因其有限的記憶容量容易被分散或無關的上下文所淹沒。現有的工作記憶方法通常依賴於外部的啟發式機制,這些機制與代理的核心策略是分離的。在本研究中,我們將工作記憶管理重新定義為一種可學習的內在能力。我們提出了一個新框架——記憶即行動(Memory-as-Action),其中代理通過執行明確的編輯操作來主動管理其工作記憶,這些操作作為統一策略的一部分。這種表述方式使得通過強化學習訓練的代理能夠在給定的資源約束下,平衡記憶整理與長期任務目標。然而,這種記憶編輯操作打破了大型語言模型交互中持續增長前綴的標準假設,導致了我們所稱的軌跡斷裂。這些非前綴的變化破壞了標準策略梯度方法所需的因果連續性,使得這些方法不再適用。為解決這一問題,我們提出了一種新算法——動態上下文策略優化(Dynamic Context Policy Optimization),該算法通過在記憶操作點分割軌跡並將軌跡級優勢應用於產生的動作片段,實現了穩定的端到端強化學習。我們的結果表明,以端到端的方式聯合優化任務推理和記憶管理,不僅減少了整體計算消耗,還通過適應模型內在能力的自適應上下文整理策略,提升了任務性能。
在將強化學習(RL)應用於擴散大型語言模型(dLLMs)時,一個關鍵挑戰在於其似然函數的難以處理性,這些函數對於RL目標至關重要,因此需要在每個訓練步驟中進行相應的近似。雖然現有方法通過定制的蒙特卡羅(MC)採樣來近似對數似然的下界(ELBO),但所有MC樣本的前向計算圖都需要保留,以便計算RL目標中非線性項的梯度,這導致了顯著的記憶體開銷。這一限制使得可行的樣本規模受限,從而導致似然近似不精確,最終扭曲了RL目標。為克服這一限制,我們提出了邊界引導策略優化(BGPO),這是一種記憶體高效的RL算法,它最大化了一個特別構建的基於ELBO目標的下界。該下界經過精心設計,滿足兩個關鍵特性:(1)線性性:它以線性總和的形式表達,其中每項僅依賴於單個MC樣本,從而實現跨樣本的梯度累積並確保恆定的記憶體使用;(2)等價性:在策略訓練中,該下界的值和梯度與基於ELBO的目標相等,使其也成為原始RL目標的有效近似。這些特性使得BGPO能夠採用較大的MC樣本規模,從而實現更精確的似然近似和改進的RL目標估計,進而提升性能。實驗表明,BGPO在數學問題求解、代碼生成和規劃任務中顯著優於先前的dLLMs RL算法。
在現實世界的應用中,多模態大型語言模型(MLLMs)需要接入外部知識源,並必須對動態且不斷變化的現實世界信息保持響應,以解決用戶的信息尋求和知識密集型查詢。現有的方法,如檢索增強生成(RAG)方法、搜索代理和配備搜索功能的MLLMs,往往存在流程僵化、搜索調用過多以及搜索查詢構建不佳等問題,導致效率低下和結果不理想。為解決這些限制,我們提出了DeepMMSearch-R1,這是首個能夠執行按需多輪網絡搜索並動態構建圖像和文本搜索工具查詢的多模態LLM。具體而言,DeepMMSearch-R1可以基於輸入圖像的相關裁剪區域啟動網絡搜索,使圖像搜索更加有效,並可以根據檢索到的信息迭代調整文本搜索查詢,從而實現自我反思和自我修正。我們的方法依賴於一個兩階段的訓練流程:冷啟動的監督微調階段,隨後是在線強化學習優化。為了訓練,我們引入了DeepMMSearchVQA,這是一個通過自動化流程創建的新穎多模態VQA數據集,其中混合了來自網絡搜索工具的現實世界信息。該數據集包含多樣化的多跳查詢,這些查詢整合了文本和視覺信息,教會模型何時搜索、搜索什麼、使用哪種搜索工具以及如何對檢索到的信息進行推理。我們在一系列知識密集型基準上進行了廣泛的實驗,以證明我們方法的優越性。最後,我們分析了結果並提供了對推進多模態網絡搜索有價值的見解。
多模態嵌入模型旨在生成信息豐富的統一表徵,以支持多樣的跨模態任務。儘管從基於CLIP的雙塔架構到大型視覺語言模型的演進中取得了令人鼓舞的進展,先前的工作在實際應用和商業場景中仍面臨不可避免的挑戰,如模態支持有限、訓練機制不穩定以及工業領域差距等。在本研究中,我們介紹了SAIL-Embedding,這是一個全模態嵌入基礎模型,通過定制的訓練策略和架構設計來解決這些問題。在優化過程中,我們提出了一種多階段訓練方案,以提升表徵學習的多方面效能。具體而言,內容感知的漸進訓練旨在增強模型對多樣下游任務的適應性,並掌握豐富的跨模態能力。協作感知的推薦增強訓練則通過從序列到項目和ID到項目的嵌入中提取知識,同時挖掘用戶歷史興趣,進一步適應推薦場景的多模態表徵。與此同時,我們開發了隨機專業化和數據集驅動的模式匹配,以增強模型訓練的靈活性和泛化能力。實驗結果顯示,SAIL-Embedding在不同檢索任務中相比其他方法達到了SOTA性能。在與我們模型整合的各種實際場景的在線實驗中,我們觀察到Lifetime(LT)這一推薦體驗的關鍵指標顯著提升。例如,在抖音精選場景中,模型實現了7天LT增益+0.158%和14天LT增益+0.144%。對於抖音信息流排序模型,SAIL-Embedding生成的匹配特徵帶來了+0.08%的AUC增益。
近期,视觉-语言模型(VLMs)在推理任务中展现出了卓越的性能。然而,构建高效VL推理训练数据集的基本原则仍鲜为人知。本研究引入了几种数据整理方法,并通过严格控制训练与评估设置,探究了这些方法对VL推理能力的影响。我们分析了上下文(图像与问题对)来源的影响,实施了有针对性的数据干预,并探索了图像、问题及思维链(CoT)解决方案的规模化扩展。研究发现:(a)上下文来源策略显著影响VLM性能;(b)如图像描述提供的辅助信号及纯文本推理的引入等干预措施,能带来显著提升;(c)所有数据维度(如每张图像的独特问题及每对图像-问题的独特CoT)的规模化扩展,均能持续增强推理能力。基于这些洞见,我们推出了HoneyBee,一个包含250万示例、35万对图像-问题的大规模高质量CoT推理数据集。使用HoneyBee训练的VLMs,在不同模型规模下均超越了现有最先进模型。例如,一个拥有30亿参数的HoneyBee训练VLM,在MathVerse上分别以7.8%和24.8%的优势超越了当前最优模型和基础模型。此外,我们提出了一种测试时扩展策略,在不牺牲准确性的前提下,将解码成本降低了73%。总体而言,本研究为VL推理数据集整理研究提供了改进策略。
多實例圖像生成(MIG)對於現代擴散模型而言仍是一大挑戰,主要受限於在實現精確控制物體佈局及保持多個獨立主體身份一致性方面的關鍵不足。為應對這些限制,我們提出了ContextGen,這是一種新穎的擴散變壓器框架,專為多實例生成設計,並以佈局和參考圖像為指導。我們的方法融合了兩項核心技術貢獻:一是上下文佈局錨定(CLA)機制,它將複合佈局圖像融入生成上下文中,以穩固地將物體錨定在期望位置;二是身份一致性注意力(ICA),這是一種創新的注意力機制,利用上下文參考圖像來確保多實例的身份一致性。鑑於此任務缺乏大規模、層次結構化的數據集,我們引入了IMIG-100K,這是首個包含詳細佈局和身份註釋的數據集。大量實驗證明,ContextGen在控制精度、身份保真度及整體視覺質量上均超越了現有方法,樹立了新的技術標杆。
人工智能的進展受阻於缺乏一種具備所有必要特性的程式語言。像PyTorch和TensorFlow這樣的庫提供了自動微分和高效的GPU實現,但它們是對Python的補充,而Python從未為AI設計。它們對自動推理和知識獲取的支持不足,導致了一系列冗長且代價高昂的嘗試來勉強實現這些功能。另一方面,像LISP和Prolog這樣的AI語言缺乏可擴展性和對學習的支持。本文提出了張量邏輯,這是一種通過在基礎層面上統一神經和符號AI來解決這些問題的語言。張量邏輯中的唯一結構是基於觀察到邏輯規則和愛因斯坦求和本質上是相同操作,並且所有其他操作都可以歸結為它們的張量方程。我展示了如何在張量邏輯中優雅地實現神經、符號和統計AI的關鍵形式,包括變壓器、形式推理、核機器和圖形模型。最重要的是,張量邏輯使新的方向成為可能,例如在嵌入空間中的可靠推理。這結合了神經網絡的可擴展性和可學習性與符號推理的可靠性和透明度,並可能成為更廣泛採用AI的基礎。
理解物理場景的動態涉及對其潛在多樣變化的推理,尤其是由局部交互作用所引發的變化。本文提出了一種新穎的框架——流動觸碰變換器(Flow Poke Transformer, FPT),用於直接預測局部運動的分佈,條件基於被稱為“觸碰”的稀疏交互。與傳統方法通常僅能對場景動態進行密集採樣以獲得單一實現不同,FPT提供了一種可解釋且直接可訪問的多模態場景運動表示,包括其對物理交互的依賴性以及場景動態固有的不確定性。我們還對模型在多個下游任務上的表現進行了評估,以便與先前方法進行比較,並突顯我們方法的靈活性。在密集面部運動生成任務中,我們通用的預訓練模型超越了專門的基線。FPT能夠在強烈分佈外任務(如合成數據集)上進行微調,從而在關節物體運動估計方面實現相較於域內方法的顯著提升。此外,直接預測顯式運動分佈使我們的方法在如基於觸碰的移動部件分割等任務上達到了競爭力的性能,進一步展示了FPT的多功能性。代碼和模型已公開於https://compvis.github.io/flow-poke-transformer。
基於指令的圖像編輯提供了一種強大且直觀的方式,通過自然語言來操控圖像。然而,僅依賴文本指令限制了對編輯程度的精細控制。我們引入了Kontinuous Kontext,這是一個指令驅動的編輯模型,它提供了一種新的控制維度——編輯強度,使用戶能夠以平滑連續的方式,從無變化逐步調整至完全實現的結果。Kontinuous Kontext擴展了一種先進的圖像編輯模型,使其能夠接受一個額外的輸入,即一個標量編輯強度,該強度隨後與編輯指令配對,從而實現對編輯範圍的顯式控制。為了注入這一標量信息,我們訓練了一個輕量級的投影網絡,該網絡將輸入的標量與編輯指令映射到模型調製空間中的係數。為了訓練我們的模型,我們利用現有的生成模型合成了一個多樣化的圖像-編輯-指令-強度四元組數據集,並通過過濾階段確保質量和一致性。Kontinuous Kontext提供了一種統一的方法,用於在指令驅動的編輯中實現從細微到強烈的精細控制,涵蓋風格化、屬性、材質、背景和形狀變化等多樣化操作,而無需進行特定屬性的訓練。
我們研究大型語言模型(LLMs)如何通過其表示空間進行「思考」。我們提出了一種新穎的幾何框架,將LLM的推理建模為流動——嵌入軌跡在邏輯進行的過程中演變。我們通過使用相同的自然演繹命題但不同的語義載體,將邏輯結構與語義分離,從而測試LLMs是否在表層形式之外內化了邏輯。這一視角將推理與位置、速度和曲率等幾何量聯繫起來,使得在表示和概念空間中進行形式化分析成為可能。我們的理論確立了:(1) LLM推理對應於表示空間中的平滑流動,(2) 邏輯語句作為這些流動速度的局部控制器。利用學習到的表示代理,我們設計了控制實驗來可視化和量化推理流動,為我們的理論框架提供了實證驗證。我們的工作既作為研究推理現象的概念基礎,也提供了實用工具,為LLM行為的可解釋性和形式化分析提供了新的視角。
在理想的設計流程中,使用者介面(UI)設計與使用者研究相互交織,以驗證決策的正確性,然而在早期探索階段,研究往往受到資源限制。近期多模態大型語言模型(MLLMs)的進展提供了一個有前景的機會,使其能夠作為早期評估者,幫助設計師在正式測試前縮小選項範圍。與以往強調在電子商務等狹窄領域中使用者行為(如點擊或轉換率)的研究不同,我們專注於跨多樣介面的主觀使用者評估。我們探討了MLLMs在評估單個UI及進行比較時,能否模仿人類偏好。利用來自眾包平台的數據,我們對GPT-4o、Claude和Llama在30個介面上進行了基準測試,並檢視了它們在多個UI因素上與人類判斷的一致性。結果顯示,MLLMs在某些維度上近似於人類偏好,但在其他方面則存在分歧,這既凸顯了它們在補充早期UX研究中的潛力,也揭示了其局限性。
符號世界建模要求推斷並將環境的轉移動態表示為可執行的程序。先前的研究主要集中在具有豐富交互數據、簡單機制及人類指導的確定性環境上。我們探討了一個更為現實且具挑戰性的場景,即在一個複雜、隨機的環境中學習,其中智能體僅有“一次生命”來探索一個充滿敵意的環境,且無人類指導。我們提出了OneLife框架,該框架通過概率編程框架內條件激活的程序化法則來建模世界動態。每條法則通過前提-效果結構運作,在相關的世界狀態下激活。這構建了一個動態計算圖,僅通過相關法則進行推理和優化,避免了所有法則對複雜層次狀態預測時的規模挑戰,並使得即使在規則激活稀疏的情況下也能學習隨機動態。為了在這些苛刻約束下評估我們的方法,我們引入了一種新的評估協議,該協議衡量(a)狀態排序,即區分可能與不可能未來狀態的能力,以及(b)狀態保真度,即生成與現實高度相似的未來狀態的能力。我們在Crafter-OO上開發並評估了我們的框架,這是我們對Crafter環境的重新實現,它展示了一個結構化的、面向對象的符號狀態以及僅在該狀態上運作的純轉移函數。OneLife能夠從極少且無指導的交互中成功學習關鍵環境動態,在23個測試場景中的16個上超越了強基準。我們還測試了OneLife的規劃能力,模擬推演成功識別了更優策略。我們的工作為自主構建未知複雜環境的程序化世界模型奠定了基礎。
大型推理模型(LRMs)通过设计在回答查询之前的自然语言思维过程,为问题解决带来了新的可能性。尽管它们在数学和编码任务中的能力已广为人知,但它们在机器翻译(MT)任务中的影响仍未得到充分探索。在本研究中,我们探讨了在不同资源水平和多种设置下进行跨语言对机器翻译时生成中间标记的益处。我们发现,“思考标记”并不能帮助LRMs更好地执行机器翻译。这一结果推广到了通过蒸馏人类翻译实践启发的链式思维(CoT)进行微调以在翻译前进行推理的模型。具体而言,使用详细说明如何逐步翻译的合成CoT解释对模型进行微调,并未超越标准的输入输出微调。然而,通过结合模块化翻译特定提示策略的输出构建中间标记,确实带来了改进。我们的发现强调,在微调过程中中间标记的贡献高度依赖于其中是否包含翻译尝试。更广泛地说,我们的结果表明,使用教师来精炼目标翻译或扩展平行语料库,比将它们的CoT解释蒸馏到“思考型”机器翻译模型中更具影响力。
我們提出了一種名為謹慎權重衰減(Cautious Weight Decay, CWD)的方法,這是一種僅需一行代碼、與優化器無關的改進措施,它僅對那些與優化器更新方向一致的參數座標施加權重衰減。與標準的解耦衰減不同,後者隱含地優化了一個正則化或約束的目標,而CWD則保留了原始損失函數,並允許雙層解釋:當達到穩定流形時,它會誘導滑模行為,從而能夠搜索未修改目標函數的局部帕累托最優穩定點。在實際應用中,CWD可無縫替換如AdamW、Lion和Muon等優化器,無需引入新的超參數或進行額外調節。對於語言模型預訓練和ImageNet分類任務,CWD在百萬至十億參數規模上持續提升了最終損失和準確率。
大型語言模型(LLM)代理在處理長期任務時,其效能根本上受制於上下文長度的限制。本文提出了一種名為“上下文折疊”(Context-Folding)的框架,該框架賦予代理主動管理其工作上下文的能力。代理能夠程序性地分支進入子軌跡以處理子任務,並在完成後將其折疊,從而壓縮中間步驟,同時保留結果的簡明摘要。為了使此行為可學習,我們開發了一種端到端的強化學習框架FoldGRPO,該框架通過特定的過程獎勵來鼓勵有效的任務分解與上下文管理。在複雜的長期任務(如深度研究與軟體工程)上,我們的折疊代理在保持活躍上下文僅為十分之一大小的情況下,與ReAct基準線持平或更優,並且顯著優於依賴於基於摘要的上下文管理模型。
近期,大型语言模型(LLMs)被应用于科学方程发现领域,利用其内嵌的科学知识进行假设生成。然而,现有方法通常将LLMs局限于遗传编程等搜索算法中的方程提议者角色。本文提出SR-Scientist框架,将LLM从简单的方程提议者提升为自主的AI科学家,能够编写代码分析数据、将方程实现为代码、提交评估,并根据实验反馈优化方程。具体而言,我们将代码解释器封装为一套用于数据分析和方程评估的工具集。该智能体被指示在长时间范围内利用这些工具优化方程,尽量减少人为定义的流程。实证结果表明,在涵盖四个科学领域的数据集上,SR-Scientist相较于基线方法有6%至35%的绝对优势。此外,我们展示了该方法对噪声的鲁棒性、所发现方程对域外数据的泛化能力及其符号准确性。更进一步,我们开发了一个端到端的强化学习框架,以增强智能体的能力。
我們研究針對大型語言模型(LLM)代理進行強化學習(RL)微調,以實現長時序多輪工具使用,其中上下文長度迅速成為基本瓶頸。現有的RL流程可能面臨指令跟隨能力下降、過高的執行成本,以及最重要的嚴格上下文限制等問題。為應對這些挑戰,我們在訓練中引入了基於摘要的上下文管理。具體而言,它定期通過LLM生成的摘要來壓縮工具使用歷史,這些摘要保留了任務相關信息,從而保持緊湊的上下文,同時使代理能夠超越固定上下文窗口的限制。基於這一框架,我們推導出一種策略梯度表示,無縫地使標準LLM RL基礎設施能夠以端到端的方式優化工具使用行為以及摘要策略。我們通過摘要增強策略優化(SUPO)來實例化這一框架,這是一種LLM RL算法,能夠實現超越固定上下文限制的長時序訓練。在交互式函數調用和搜索任務上的實驗表明,與基線相比,SUPO在保持相同甚至更低的工作上下文長度的同時,顯著提高了成功率。我們還證明,對於複雜的搜索任務,當測試時的最大摘要輪次超過訓練時的設置時,SUPO可以進一步提升評估性能。我們的結果確立了基於摘要的上下文管理作為一種原則性和可擴展的方法,用於訓練超越固定上下文長度限制的RL代理。
多模態大型語言模型(MLLMs)在加速科學發現方面具有潛力,特別是在解讀複雜實驗程序方面。然而,由於現有基準測試未能充分考慮真實實驗室工作中細粒度與長時程的特性,尤其是在濕實驗室環境中,這些模型的真正能力尚不明晰。為彌補這一差距,我們引入了ExpVid,這是首個旨在系統評估MLLMs在科學實驗視頻上表現的基準測試。ExpVid精選自同行評審的視頻出版物,並採用了一個新的三層任務層次結構,該結構映射了科學過程:(1)對工具、材料和動作的細粒度感知;(2)對步驟順序和完整性的程序理解;以及(3)將整個實驗與其發表結論相聯繫的科學推理。我們以視覺為中心的註釋流程,結合自動生成與多學科專家驗證,確保了任務需要視覺基礎。我們在ExpVid上評估了19個領先的MLLMs,發現雖然它們在粗粒度識別方面表現出色,但在區分細微細節、追蹤狀態隨時間變化以及將實驗程序與科學成果相聯繫方面卻存在困難。我們的結果揭示了專有模型與開源模型之間在高效能推理上的顯著性能差距。ExpVid不僅提供了一個診斷工具,還為開發能夠成為科學實驗中可信賴夥伴的MLLMs繪製了路線圖。
數據污染對大型語言模型(LLMs)的可靠評估構成了重大威脅。當基準樣本無意中出現在訓練集中時,這一問題便會出現,從而損害報告性能的有效性。儘管已經開發了針對預訓練和監督微調階段的檢測方法,但在日益重要的強化學習(RL)後訓練階段,仍存在一個關鍵的研究空白。隨著RL後訓練成為推進LLM推理的關鍵,這一範式中缺乏專門的污染檢測方法,暴露了一個嚴重的脆弱性。為解決這一問題,我們首次在RL後訓練情境下系統地研究了數據檢測,並提出了自我批判(Self-Critique)方法。我們的方法基於一個關鍵觀察:在RL階段後,LLMs的輸出熵分佈往往會崩潰為高度特定且稀疏的模式。自我批判探測了潛在的策略崩潰,即模型收斂到一個狹窄的推理路徑,這導致了熵的減少。為了促進這項研究,我們還引入了RL-MIA,這是一個為模擬這一特定污染場景而構建的基準。大量實驗表明,自我批判在多個模型和污染任務中顯著優於基線方法,AUC提升高達30%。而現有方法對於RL階段的污染檢測幾乎接近隨機猜測,我們的方法則使檢測成為可能。
現有的多模態大型語言模型(MLLMs)由於圖像輸入引入的額外視覺標記而面臨推理成本增加的問題。在本研究中,我們提出了一種新穎的訓練算法——視覺一致性學習(ViCO),該算法使模型能夠根據圖像的語義複雜性使用不同數量的視覺標記來表示圖像。我們方法的核心理念是採用多個具有不同圖像壓縮比的多層感知器(MLP)連接器,根據圖像的語義複雜性對視覺標記進行下采樣。在訓練過程中,我們最小化基於不同MLP連接器條件下的響應之間的KL散度。在推理階段,我們引入了一個稱為視覺分辨率路由器(ViR)的圖像路由機制,它能自動為每個圖像塊選擇合適的壓縮率。與現有的基於圖像分辨率調整視覺標記數量的動態高分辨率策略相比,我們的方法根據語義複雜性動態調整視覺標記的數量。實驗結果表明,我們的方法能夠在保持模型感知、推理和OCR能力的同時,將視覺標記的數量減少高達50%。我們希望這項工作能為開發更高效的MLLMs做出貢獻。代碼和模型將被公開,以促進未來的研究。
近期在长链思维推理(CoT)领域的进展,主要聚焦于答案准确性和令牌效率,却忽视了可信赖性的关键方面。我们认为,实用的推理系统必须具备可信赖性,这体现在三个特性上:可解释性、忠实性和可靠性。为此,我们提出了ReFIne,一种新的训练框架,它将监督微调与GRPO相结合,旨在激励模型实现以下目标:(i) 通过生成结构化的、基于标签的追踪记录,并辅以高层级规划,提升可解释性,使人类更易于理解;(ii) 通过明确揭示指导每个解决方案的关键信息,并保持跨部分引用的一致性,增强忠实性;(iii) 通过提供对推导过程合理性的自我评估及最终答案的置信度,促进可靠性。我们将ReFIne应用于不同规模(1.7B/4B/8B)的Qwen3模型,并在不同难度的数学基准上进行评估。实验结果表明,ReFIne模型生成了更清晰、结构更优的推理追踪(可解释性提升44.0%),更忠实地展现了其底层决策过程(忠实性提升18.8%),并提供了信息丰富的置信度估计(可靠性提升42.4%)。这些发现揭示了一个被忽视但重要的方向:推理模型不仅应优化准确性,还应拓展至可信赖性的更广泛维度。我们的代码公开于: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
时间序列预测(TSF)在机器学习领域中依然是一个具有挑战性且尚未完全解决的问题,尽管近期大量研究利用大型语言模型(LLMs),这些模型主要依赖于Transformer架构。实证研究一致表明,即使在TSF任务中,强大的Transformer模型也往往无法超越更为简单的模型,例如线性模型;然而,对于这一现象的严格理论理解仍然有限。本文通过上下文学习(ICL)理论的视角,对Transformer在TSF中的局限性进行了理论分析。具体而言,在AR(p)数据下,我们确立了以下几点:(1)线性自注意力(LSA)模型在上下文预测中无法实现比经典线性模型更低的期望均方误差;(2)当上下文长度趋近于无穷大时,LSA渐近地恢复最优线性预测器;(3)在思维链(CoT)式推理下,预测值以指数速度收敛至均值。我们通过精心设计的实验对这些发现进行了实证验证。我们的理论不仅揭示了几个先前未被充分探讨的现象,还为设计更有效的预测架构提供了实用见解。我们希望我们的工作能够鼓励更广泛的研究社区重新审视TSF的基本理论局限性,并在未经深入审查的情况下,对日益复杂架构的直接应用进行批判性评估。
近期大型語言模型(LLMs)的進展顯示,延長推理鏈的長度能顯著提升複雜任務的表現。雖然揭示這些推理軌跡有助於使用者更好地跟隨、驗證並從模型的解題過程中學習,但這也使得它們極易受到未經授權的蒸餾攻擊。為減輕此風險,專有模型提供商常採取激進的保護策略,例如以簡短摘要取代詳細推理,這剝奪了使用者獲取有價值的中間資訊的機會。為解決這一權衡問題,我們提出了PART,一種保留資訊的反蒸餾推理軌跡重構方法。基於人類理解推理軌跡與LLMs利用它們進行監督微調之間的差異,我們設計了一個簡單但有效的兩步重構:移除自對話行為並重新排序子結論。一個小型輔助模型被訓練來執行此重構,僅帶來最小的計算開銷。大量實驗表明,PART在不同規模和類型的學生模型上,在多種推理基準測試中持續破壞蒸餾效果。例如,當在重構後的軌跡上訓練時,即使是大型32B學生模型在AIME 2024上的表現也從54.17降至46.88,相當於13.5%的性能下降。
聊天機器人提供商(如OpenAI)依賴分層訂閱方案來產生收入,為免費用戶提供基礎模型,而為付費用戶提供高級模型。然而,針對高級功能(如數學、編程)的更細粒度的付費解鎖方案被認為對提供商更具經濟可行性。此類方案需要一種功能鎖定技術(FLoTE),該技術需滿足以下條件:(i) 能有效拒絕鎖定功能,(ii) 對已解鎖功能保持效用,(iii) 能抵禦規避或未經授權的憑證共享,(iv) 能擴展至多種功能與用戶。然而,現有的FLoTEs(如密碼鎖定模型)既不具備魯棒性也不具備可擴展性。我們提出了Locket,這是首個實現付費解鎖方案的魯棒且可擴展的FLoTE。Locket採用了一種新穎的融合方法,將適配器附加到大型語言模型(LLM)上,以拒絕未經授權的功能。我們全面的評估顯示,Locket在有效性(對鎖定功能的拒絕率達100%)、效用保持(已解鎖功能的效用下降≤7%)、魯棒性(攻擊成功率≤5%)以及對多種功能和客戶的可擴展性方面均表現出色。
近期,针对大型推理模型(LRMs)的基于推理的安全防护措施,如深思熟虑的对齐策略,已展现出对越狱攻击的强大防御能力。这些防护措施通过利用LRMs的推理能力,帮助模型在生成最终响应前评估用户输入的安全性。强大的推理能力能够分析输入查询的意图,并在检测到越狱方法隐藏的有害意图时拒绝提供协助。此类防护措施在防御方面表现出显著提升,例如在开源gpt-oss系列上实现了近乎完美的拒绝率。然而,我们发现这些基于推理的强大防护措施极易受到输入提示的微妙操控,一旦被劫持,可能导致更为严重的后果。具体而言,我们首先揭示了这些防护措施的一个惊人脆弱点:仅需在输入提示中添加少量模板标记,即可成功绕过看似强大的防护措施,引发明确且有害的响应。为进一步探究,我们引入了一系列颠覆基于推理防护措施的越狱方法。我们的攻击涵盖白盒、灰盒和黑盒场景,从简单的模板操控到全自动优化不等。这些方法不仅具备可扩展实施的潜力,还在攻击成功率上达到了令人警觉的高度(例如,在本地主机模型和在线API服务上,gpt-oss系列在五个不同基准测试中的成功率均超过90%)。对多种领先开源LRMs的评估证实,这些漏洞具有系统性,凸显了加强开源LRMs对齐技术以防止恶意滥用的迫切需求。代码已开源,详见https://chenxshuo.github.io/bag-of-tricks。
我们介绍了SynthID-Image,一种基于深度学习的系统,用于对AI生成的图像进行隐形水印处理。本文详细记录了在互联网规模上部署此类系统的技术需求、威胁模型及实际挑战,重点探讨了有效性、保真度、鲁棒性和安全性等关键要求。SynthID-Image已在谷歌服务中为超过百亿张图片和视频帧添加水印,其对应的验证服务已向受信任的测试者开放。为了全面性,我们还展示了对外部模型变体SynthID-O的实验评估,该模型通过合作伙伴关系提供。我们将SynthID-O与文献中的其他后处理水印方法进行基准测试,证明了其在视觉质量和对抗常见图像扰动方面的最先进性能。尽管本工作聚焦于视觉媒体,但关于部署、限制和威胁建模的结论可推广至包括音频在内的其他模态。本文为基于深度学习的媒体溯源系统的大规模部署提供了全面的文档记录。
對比式音頻-語言預訓練能夠產生強大的聯合表徵,然而持續存在的音頻-文本模態差距限制了多模態編碼器與大型語言模型(LLMs)耦合的效益。我們提出了Diffusion-Link,這是一種基於擴散的模態橋接模塊,它通過生成方式將音頻嵌入映射到文本嵌入分佈中。該模塊在凍結的多模態編碼器的輸出嵌入處進行訓練,並實現為一個包含三個殘差MLP塊的輕量級網絡。為了評估Diffusion-Link對多模態編碼器-LLM耦合的影響,我們在自動音頻描述(AAC)任務上進行了評估;據我們所知,這是首次將基於擴散的模態橋接應用於AAC。我們報告了兩項結果。(1)模態差距分析:在相似性和幾何標準上,Diffusion-Link在現有的基於擴散的方法中最大程度地減小了模態差距,並顯示出音頻嵌入向文本分佈的集體遷移。(2)下游AAC:將Diffusion-Link附加到相同的多模態LLM基線上,在AudioCaps數據集上實現了零樣本和全監督描述的最新水平,無需外部知識,相對增益分別高達52.5%和7.5%。這些發現表明,縮小模態差距對於多模態編碼器與LLMs之間的有效耦合至關重要,而基於擴散的模態橋接提供了一條超越以知識檢索為中心的設計的可行方向。代碼將在論文接受後發佈於https://github.com/DevKiHyun/Diffusion-Link。
基於大型語言模型(LLMs)構建的深度研究(DR)代理能夠通過分解任務、檢索線上信息並綜合詳細報告來執行複雜的多步驟研究。然而,此類強大能力的濫用可能帶來更大的風險,這在生物安全等高風險與知識密集型領域尤為令人擔憂,因為DR代理可能生成包含詳細禁制知識的專業報告。遺憾的是,我們在實踐中已發現此類風險:僅提交一個獨立LLM直接拒絕的有害查詢,即可誘導DR代理產出詳盡且危險的報告。這凸顯了風險的升級,並強調了進行更深入安全分析的必要性。然而,針對LLMs設計的越獄方法在揭示此類獨特風險方面存在不足,因為它們並未針對DR代理的研究能力。為填補這一空白,我們提出了兩種新穎的越獄策略:計劃注入(Plan Injection),將惡意子目標注入代理的計劃中;以及意圖劫持(Intent Hijack),將有害查詢重新框架為學術研究問題。我們在不同LLMs及多種安全基準(包括通用及生物安全禁制提示)上進行了廣泛實驗,揭示了三個關鍵發現:(1) LLMs的對齊在DR代理中常失效,以學術術語包裝的有害提示可劫持代理意圖;(2) 多步驟規劃與執行削弱了對齊,暴露出系統性漏洞,提示級別的安全措施無法應對;(3) 與獨立LLMs相比,DR代理不僅繞過拒絕,還產出更連貫、專業且危險的內容。這些結果表明DR代理存在根本性的對齊失調,呼籲開發針對DR代理的更好對齊技術。代碼與數據集可於https://chenxshuo.github.io/deeper-harm獲取。
現有的去噪生成模型依賴於求解離散化的反向時間隨機微分方程(SDEs)或常微分方程(ODEs)。本文中,我們揭示了這類模型中長期被忽視卻普遍存在的問題:預定義的噪聲水平與採樣過程中間狀態所編碼的實際噪聲水平之間的不匹配。我們將這種不匹配現象稱為噪聲偏移。通過實證分析,我們證明了噪聲偏移在現代擴散模型中廣泛存在,並呈現出系統性偏差,導致由於分佈外泛化和不準確的去噪更新而產生的次優生成結果。為解決這一問題,我們提出了噪聲感知指導(Noise Awareness Guidance, NAG),這是一種簡單而有效的校正方法,明確引導採樣軌跡與預定義的噪聲調度保持一致。我們進一步引入了NAG的無分類器變體,該變體通過噪聲條件丟棄聯合訓練一個噪聲條件模型和一個無噪聲條件模型,從而消除了對外部分類器的需求。包括ImageNet生成和多種監督微調任務在內的廣泛實驗表明,NAG持續緩解了噪聲偏移,並顯著提升了主流擴散模型的生成質量。
基於擴散的大型語言模型(dLLMs)作為自迴歸(AR)LLMs的一種有前景的替代方案,利用去噪生成實現了內在的並行性。儘管越來越多的開源dLLM模型湧現,但其廣泛應用仍因缺乏標準化且高效的推理框架而受限。我們提出了dInfer,一個高效且可擴展的dLLM推理框架。dInfer將推理管道分解為四個模塊化組件——模型、擴散迭代管理器、解碼策略和KV緩存管理器——並為每個組件集成新算法,同時進行系統級優化。通過這種算法創新與系統增強相結合的方式,dInfer在LLaDA-MoE上實現了顯著的效率提升,且不影響輸出質量。在批量大小為1的情況下,其在HumanEval上超過每秒1,100個令牌,並在8塊H800 GPU上跨六個基準測試平均超過每秒800個令牌。與之前系統相比,dInfer在保持相似模型性能的同時,比Fast-dLLM快10倍。即使與使用最新vLLM推理引擎高度優化的AR模型(具有可比激活參數數量和性能)QWen2.5-3B相比,dInfer仍能提供2-3倍的加速。dInfer的實現已開源於https://github.com/inclusionAI/dInfer。