每日精選AI研究論文及翻譯
諸如深度研究系統的代理式搜索,其中大型語言模型自主瀏覽網絡、綜合信息並返回有引用支持的全面答案,代表了用戶與網絡規模信息互動方式的重大轉變。雖然這種方式承諾更高的效率和認知卸載,但代理式搜索日益增長的複雜性和開放性已超越了現有的評估基準和方法論,這些基準和方法論大多假設了較短的搜索視野和靜態答案。在本文中,我們介紹了Mind2Web 2,這是一個包含130個現實、高質量且長期視野任務的基準,這些任務需要實時網絡瀏覽和廣泛的信息綜合,並通過超過1000小時的人力勞動構建。為了解決評估時變和複雜答案的挑戰,我們提出了一種新穎的「代理即法官」框架。我們的方法基於樹狀結構的評分設計構建特定任務的法官代理,以自動評估答案的正確性和來源歸屬。我們對九個前沿代理式搜索系統和人類表現進行了全面評估,並進行了詳細的錯誤分析,以汲取未來發展的見解。表現最佳的系統,OpenAI深度研究,已經能夠在花費一半時間的情況下達到人類表現的50-70%,顯示出巨大的潛力。總的來說,Mind2Web 2為開發和基準測試下一代代理式搜索系統提供了嚴謹的基礎。
我們開發了一種成本效益高的神經符號代理,用於處理具有挑戰性的多輪圖像編輯任務,例如「檢測圖像中的長椅並將其重新著色為粉色。同時,移除貓以獲得更清晰的視野,並將牆壁重新著色為黃色。」該代理結合了大型語言模型(LLMs)快速、高層次的子任務規劃能力,以及針對每個子任務的緩慢、精確、工具使用和局部A^*搜索,以找到成本效益高的工具路徑——即一系列對AI工具的調用。為了節省在相似子任務上使用A^*的成本,我們通過LLMs對先前成功的工具路徑進行歸納推理,持續提取/精煉常用子程序,並將其作為新工具用於未來任務的自適應快慢規劃中,其中高層次子程序首先被探索,僅當它們失敗時,低層次的A^*搜索才會被激活。可重用的符號子程序顯著節省了在相似圖像上應用相同類型子任務的探索成本,從而產生了一種類似人類的快慢工具路徑代理「FaSTA^*」:首先由LLMs嘗試快速子任務規劃,並基於規則選擇每個子任務的子程序,這預計能覆蓋大多數任務,而緩慢的A^*搜索僅針對新穎且具有挑戰性的子任務觸發。通過與最近的圖像編輯方法進行比較,我們證明FaSTA^*在計算效率上顯著更高,同時在成功率方面與最先進的基線方法保持競爭力。
近期場景重建技術的進步,已推動了利用3D高斯潑濺技術對自動駕駛(AD)環境進行高度逼真建模的發展。然而,這些重建結果仍緊密依賴於原始觀測數據,難以支持對顯著改變或全新駕駛場景的逼真合成。本研究提出了MADrive,這是一個記憶增強的重建框架,旨在通過從大規模外部記憶庫中檢索視覺相似的3D資產來替換觀測到的車輛,從而擴展現有場景重建方法的能力。具體而言,我們發布了MAD-Cars,這是一個精心策劃的數據集,包含約70K個在野外捕捉的360度汽車視頻,並提出了一個檢索模塊,該模塊在記憶庫中尋找最相似的汽車實例,從視頻中重建相應的3D資產,並通過方向對齊和重新照明將其整合到目標場景中。由此產生的替換提供了場景中車輛的完整多視圖表示,使得在實驗中展示的顯著改變配置的逼真合成成為可能。項目頁面:https://yandex-research.github.io/madrive/
我們提出了WorldVLA,這是一個自迴歸動作世界模型,它統一了動作與圖像的理解與生成。我們的WorldVLA將視覺-語言-動作(VLA)模型與世界模型整合於單一框架之中。該世界模型通過利用動作與圖像的理解來預測未來圖像,旨在學習環境的基礎物理規律以提升動作生成。同時,動作模型基於圖像觀測生成後續動作,有助於視覺理解,並反過來促進世界模型的視覺生成。我們證明了WorldVLA在性能上超越了獨立的動作模型與世界模型,凸顯了世界模型與動作模型之間的相互增強作用。此外,我們發現當以自迴歸方式生成動作序列時,動作模型的性能會有所下降。這一現象可歸因於模型在動作預測上的泛化能力有限,導致早期動作的錯誤傳播至後續動作。為解決此問題,我們提出了一種注意力掩碼策略,在生成當前動作時選擇性地掩蓋先前的動作,這在動作塊生成任務中顯示出顯著的性能提升。
Grokking現象,即訓練損失收斂後測試性能仍持續提升,近期在神經網絡訓練中被觀察到,這使得泛化機制及其他新興能力如推理變得神秘莫測。以往研究通常針對小型模型在少數玩具或高度特定任務上進行數千輪訓練,而我們首次在一個7B大規模語言模型(LLM),即OLMoE,的一次性預訓練過程中,對檢查點上的grokking現象進行了研究。我們計算了訓練損失,並在多樣化的基準任務上評估了泛化能力,包括數學推理、代碼生成以及常識/領域特定知識檢索任務。 我們的研究首次證實,儘管不同數據可能異步進入grokking階段,但在大規模基礎模型的預訓練中,grokking現象依然存在。通過探究LLM內部動態,我們進一步揭示了grokking中“泛化湧現”的奧秘。具體而言,我們發現訓練樣本的路徑(即跨層次的專家選擇)在grokking過程中從隨機、實例特定演變為更加結構化且樣本間可共享。此外,儘管損失已收斂,樣本路徑的複雜度卻有所降低。這些發現指向了從記憶到泛化的轉變,為延遲泛化提供了機制上的解釋。 在本研究中,我們開發了兩個新穎的指標來量化路徑距離及單一路徑的複雜度,並展示了它們在預測多樣化下游任務上泛化提升的能力。這些指標高效、易於計算且僅依賴於訓練數據,因此對於預訓練具有實用價值,使我們無需微調和測試即可監控泛化性能。理論上,我們證明了更結構化的路徑能降低模型複雜度並提升泛化界限。
條件計算是一種使Transformer模型更為高效的流行策略。現有方法通常針對單一模組(例如專家混合層)或獨立地跳過某些層。然而,可解釋性研究表明,Transformer的中間層表現出更大的冗餘性,且早期層會將信息聚合到特定的token位置。基於這些洞見,我們提出了一種新穎的架構,該架構能夠動態地從中間向外跳過可變數量的層。具體而言,一個學習到的門控機制根據輸入決定是否繞過一組對稱的中心區塊,而一個門控注意力機制則防止後續的token關注被跳過的token位置。我們通過「三明治」或「每層歸一化」方案來控制殘差範數,並通過自適應正則化損失來控制門控的稀疏性。我們原本旨在降低「較簡單」token的計算需求,並可能促進一種多層次表示層次的湧現,但在所研究的規模下,與層數較少的密集基線模型相比,我們的方法在驗證交叉熵與估計FLOPs之間的權衡上並未實現改進。我們已在https://github.com/tim-lawson/skip-middle上發布了我們的代碼。
我們提出SAM4D,這是一個多模態與時間基礎模型,旨在實現跨攝像頭與LiDAR流的可提示分割。我們引入了統一多模態位置編碼(UMPE),以在共享的三維空間中對齊攝像頭與LiDAR特徵,從而實現無縫的跨模態提示與交互。此外,我們提出了運動感知跨模態記憶注意力機制(MCMA),該機制利用自我運動補償來增強時間一致性與長時序特徵檢索,確保在動態變化的自動駕駛場景中實現穩健的分割。為避免標註瓶頸,我們開發了一個多模態自動化數據引擎,該引擎結合了VFM驅動的視頻掩碼片段、時空四維重建以及跨模態掩碼片段融合。這一框架以比人工標註快數個數量級的速度生成攝像頭-LiDAR對齊的偽標籤,同時在點雲表示中保留了VFM衍生的語義保真度。我們在構建的Waymo-4DSeg上進行了廣泛的實驗,這些實驗展示了SAM4D強大的跨模態分割能力及其在數據標註中的巨大潛力。
蒙皮与骨骼绑定是动画、关节物体重建、运动迁移及四维生成中的基础组件。现有方法主要依赖于线性混合蒙皮(LBS),因其简单且可微分。然而,LBS会引入体积损失和非自然变形等伪影,且无法模拟如软组织、毛发及柔性附属物(如象鼻、耳朵和脂肪组织)等弹性材料。在本研究中,我们提出了PhysRig:一种基于物理的可微分蒙皮与骨骼绑定框架,通过将刚性骨骼嵌入体积表示(如四面体网格)中,将其模拟为由动画骨骼驱动的可变形软体结构,从而克服了这些限制。我们的方法利用连续介质力学,将物体离散化为嵌入欧拉背景网格中的粒子,确保了对材料属性和骨骼运动的可微分性。此外,我们引入了材料原型,显著减少了学习空间,同时保持了高表现力。为了评估我们的框架,我们利用来自Objaverse、The Amazing Animals Zoo和MixaMo的网格构建了一个全面的合成数据集,涵盖了多样化的物体类别和运动模式。我们的方法在生成更真实、物理上更合理的结果方面,始终优于传统的基于LBS的方法。此外,我们展示了该框架在姿态迁移任务中的适用性,突显了其在关节物体建模中的多功能性。
我們訓練模型來預測基於人類動作的自我中心視角視頻(PEVA),該模型接收過去的視頻和以相對3D身體姿態表示的動作作為輸入。通過以由身體關節層次結構組織的運動學姿態軌跡為條件,我們的模型學會模擬物理人類動作如何從第一人稱視角塑造環境。我們在Nymeria這一包含大規模真實世界自我中心視頻和身體姿態捕捉的數據集上,訓練了一個自回歸條件擴散變換器。此外,我們設計了一個分層評估協議,包含難度遞增的任務,從而能夠全面分析模型的具身預測和控制能力。我們的工作代表了一項初步嘗試,旨在從人類視角出發,通過視頻預測來應對複雜現實世界環境和具身代理行為建模的挑戰。
随着大型语言模型(LLMs)的迅速普及——每种模型都针对不同的优势、风格或延迟/成本特性进行了优化——路由技术已成为实现不同模型应用的关键手段。然而,现有的LLM路由方法在两个方面存在显著局限:它们依赖的基准测试往往无法捕捉由主观评价标准驱动的人类偏好,且通常仅从有限的模型池中进行选择。在本研究中,我们提出了一种偏好对齐的路由框架,该框架通过将查询与用户定义的领域(如旅行)或操作类型(如图像编辑)相匹配来指导模型选择,从而提供了一种在路由决策中编码偏好的实用机制。具体而言,我们引入了Arch-Router,这是一个紧凑的1.5B模型,它学习将查询映射到领域-操作偏好,以做出模型路由决策。我们的方法还支持无缝添加新模型进行路由,而无需重新训练或修改架构。在对话数据集上的实验表明,我们的方法在将查询与人类偏好匹配方面达到了最先进的(SOTA)效果,超越了顶级专有模型。我们的方法能够捕捉主观评价标准,并使路由决策更加透明和灵活。我们的模型可在以下网址获取:https://huggingface.co/katanemo/Arch-Router-1.5B。
罕見疾病在全球範圍內影響超過3億人,然而及時且準確的診斷仍是一個普遍存在的挑戰。這主要歸因於其臨床異質性、個別發病率低以及大多數臨床醫生對罕見病症的熟悉度有限。在此,我們介紹DeepRare,這是首個由大型語言模型(LLM)驅動的罕見疾病診斷代理系統,能夠處理異質性的臨床輸入。該系統生成針對罕見疾病的排名診斷假設,每個假設均附有透明的推理鏈,將中間分析步驟與可驗證的醫學證據相聯繫。 DeepRare包含三個關鍵組件:一個帶有長期記憶模塊的中心主機;負責特定領域分析任務的專用代理服務器,整合了超過40種專用工具和網絡規模的最新醫學知識源,確保獲取最當前的臨床信息。這種模塊化和可擴展的設計使得複雜的診斷推理成為可能,同時保持可追溯性和適應性。我們在八個數據集上評估了DeepRare。該系統在2,919種疾病中展現出卓越的診斷性能,對1013種疾病達到了100%的準確率。在基於HPO的評估中,DeepRare顯著優於其他15種方法,如傳統的生物信息學診斷工具、LLM和其他代理系統,平均Recall@1得分為57.18%,並以23.79個百分點的顯著優勢超越次優方法(推理LLM)。在多模態輸入場景下,DeepRare在109個案例中Recall@1達到70.60%,而Exomiser為53.20%。臨床專家對推理鏈的手動驗證達到了95.40%的一致性。此外,DeepRare系統已作為一個用戶友好的網絡應用程序實現,網址為http://raredx.cn/doctor。
我們提出FairyGen,這是一個從單張兒童繪畫自動生成故事驅動卡通視頻的系統,同時忠實保留其獨特的藝術風格。與以往主要關注角色一致性和基本動作的敘事方法不同,FairyGen明確地將角色建模與風格化背景生成分離,並融入電影鏡頭設計,以支持富有表現力且連貫的敘事。給定一張角色草圖,我們首先利用MLLM生成一個結構化的故事板,其中包含鏡頭級別的描述,詳細說明環境設定、角色動作和攝像機視角。為了確保視覺一致性,我們引入了一種風格傳播適配器,它捕捉角色的視覺風格並將其應用於背景,在合成風格一致的場景的同時,忠實保留角色的完整視覺身份。鏡頭設計模塊通過基於故事板的畫面裁剪和多視角合成,進一步增強了視覺多樣性和電影質量。為了動畫化故事,我們重建了角色的3D代理,以導出物理上合理的動作序列,然後用於微調基於MMDiT的圖像到視頻擴散模型。我們進一步提出了一種兩階段動作定製適配器:第一階段從時間上無序的幀中學習外觀特徵,將身份與動作分離;第二階段使用時間步移策略和凍結身份權重來建模時間動態。一旦訓練完成,FairyGen可以直接渲染與故事板對齊的多樣且連貫的視頻場景。大量實驗表明,我們的系統生成的動畫在風格上忠實,敘事結構自然,動作流暢,凸顯了其在個性化和引人入勝的故事動畫中的潛力。代碼將在https://github.com/GVCLab/FairyGen 提供。
我們提出了生成積木世界,通過操控簡單的幾何抽象來與生成圖像的場景進行互動。我們的方法將場景表示為凸面三維基元的組合,同一場景可以用不同數量的基元來表示,這使得編輯者能夠移動整個結構或細微細節。一旦場景幾何被編輯,圖像便通過一種基於流的方法生成,該方法受深度和紋理提示的條件約束。我們的紋理提示考慮了修改後的三維基元,超越了現有鍵值緩存技術所提供的紋理一致性。這些紋理提示(a)允許精確的物體和相機移動,以及(b)在很大程度上保留了所描繪物體的身份。定量和定性實驗表明,我們的方法在視覺保真度、可編輯性和組合泛化方面優於先前的工作。
基础模型,尤其是大规模语言模型(LLMs)的分布式训练,对通信要求极高。因此,它高度依赖于具备快速且可靠互连的集中式集群。我们能否在慢速网络上进行训练,从而在处理超过1000亿参数的模型时,释放去中心化集群的潜力?本文提出了DiLoCoX,一种低通信的大规模去中心化集群训练框架。该框架结合了流水线并行与双优化器策略、通信与本地训练的一步延迟重叠,以及自适应梯度压缩方案。这一组合显著提升了参数规模及模型预训练速度。我们通过收敛性理论分析,论证了一步延迟重叠通信与本地训练以及自适应梯度压缩方案的优势。实验表明,DiLoCoX能够在1Gbps网络上预训练一个1070亿参数的基础模型。与传统的AllReduce相比,DiLoCoX在分布式训练中实现了357倍的加速,同时保持了模型收敛性的可忽略下降。据我们所知,这是首个成功应用于超过1000亿参数模型的去中心化训练框架。
本文提出了一種名為DuaShepherd的新穎獎勵建模框架,該框架整合了兩種互補的獎勵信號——正確性與潛力,以增強大型語言模型(LLMs)的數學推理能力。其中,基於正確性的信號強調逐步錯誤的識別,而基於潛力的信號則關注於達到正確最終答案的可能性。我們開發了一條自動化管道,用於構建包含這兩種信號的大規模獎勵建模數據集。通過探索一種統一的多頭架構,在多任務設置下訓練這兩個獎勵模型,展示了同時學習正確性與潛力的優勢。將這兩種信號結合為一個複合概率,我們的模型在多個基準測試中實現了持續的性能提升。在MATH500和ProcessBench上的實證評估證實,這種組合獎勵顯著優於僅基於單一獎勵類型訓練的模型,在可比較的資源限制下達到了最先進的性能。
我們提出了MuseControlLite,這是一種輕量級機制,旨在通過各種時變音樂屬性和參考音頻信號來精細調節文本到音樂生成模型,以實現精確的條件控制。關鍵發現是,位置嵌入(在文本條件下,文本到音樂生成模型的條件器中很少使用)在關注的條件是時間函數時至關重要。以旋律控制為例,我們的實驗表明,只需在解耦的交叉注意力層中添加旋轉位置嵌入,即可將控制精度從56.6%提高到61.1%,同時所需的可訓練參數比最先進的微調機制少6.75倍,使用的是相同的預訓練擴散Transformer模型Stable Audio Open。我們評估了各種形式的音樂屬性控制、音頻修補和音頻擴展,展示了在顯著降低微調成本的情況下,相比MusicGen-Large和Stable Audio Open ControlNet,具有更高的可控性,僅需85M可訓練參數。源代碼、模型檢查點和演示示例可在以下網址獲取:https://musecontrollite.github.io/web/。
啟發式演算法在解決組合優化(CO)問題中扮演著至關重要的角色,然而傳統設計高度依賴於人工專業知識,且難以在多樣化的實例中實現泛化。我們提出了HeurAgenix,這是一個由大型語言模型(LLMs)驅動的兩階段超啟發式框架,首先演化啟發式方法,然後自動從中進行選擇。在啟發式演化階段,HeurAgenix利用LLM比較初始啟發式解與更高質量的解,並提取可重用的演化策略。在問題求解過程中,它根據LLM的感知能力動態選擇每個問題狀態下最有前景的啟發式方法。為了靈活性,該選擇器可以是先進的LLM,也可以是經過微調的低推理成本的輕量級模型。為了緩解因CO複雜性導致的可靠監督稀缺問題,我們採用雙重獎勵機制對輕量級啟發式選擇器進行微調,該機制聯合利用選擇偏好和狀態感知的信號,從而在噪聲註釋下實現穩健的選擇。在經典基準上的大量實驗表明,HeurAgenix不僅超越了現有的基於LLM的超啟發式方法,還匹配或超越了專用求解器。代碼可在https://github.com/microsoft/HeurAgenix獲取。