AI研究論文每日精選

每日精選AI研究論文及翻譯

ReCamMaster：基於單一視頻的相機控制生成式渲染
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

Mar 14

ByJianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang

146

在文本或圖像條件下的視頻生成任務中，相機控制已被積極研究。然而，儘管在視頻創作領域中具有重要性，改變給定視頻的相機軌跡仍然未被充分探索。這是由於需要維持多幀外觀和動態同步的額外約束，使得這一任務非比尋常。為此，我們提出了ReCamMaster，這是一個相機控制的生成式視頻重渲染框架，能夠在新穎的相機軌跡上重現輸入視頻的動態場景。其核心創新在於利用預訓練的文本到視頻模型的生成能力，通過一個簡單而強大的視頻條件機制——這一能力在當前研究中常被忽視。為克服合格訓練數據的稀缺性，我們使用Unreal Engine 5構建了一個全面的多相機同步視頻數據集，該數據集精心策劃以遵循現實世界的拍攝特性，涵蓋了多樣化的場景和相機運動。這有助於模型泛化到野外視頻。最後，我們通過精心設計的訓練策略進一步提高了對多樣化輸入的魯棒性。大量實驗表明，我們的方法顯著優於現有的最先進方法和強基線。我們的方法還在視頻穩定、超分辨率和外繪等領域找到了有前景的應用。項目頁面：https://jianhongbai.github.io/ReCamMaster/

SmolDocling：一款超紧凑的视觉-语言模型，用于端到端的多模态文档转换
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Mar 14

ByAhmed Nassar, Andres Marafioti, Matteo Omenetti, Maksym Lysak, Nikolaos Livathinos, Christoph Auer, Lucas Morin, Rafael Teixeira de Lima, Yusik Kim, A. Said Gurbuz, Michele Dolfi, Miquel Farré, Peter W. J. Staar

138

我們推出SmolDocling，這是一款針對端到端文件轉換的超緊湊視覺語言模型。我們的模型通過生成DocTags——一種新的通用標記格式，全面處理整頁內容，捕捉所有頁面元素及其完整上下文與位置信息。與依賴大型基礎模型或由多個專用模型組成的複雜流水線的現有方法不同，SmolDocling提供了一種端到端的轉換方案，在僅256M參數的視覺語言模型中精確捕捉文件元素的內容、結構及空間位置。SmolDocling在正確重現代碼列表、表格、公式、圖表、列表等文件特徵方面表現出強健的性能，適用於包括商業文件、學術論文、技術報告、專利和表格在內的多種文件類型，顯著超越了通常僅關注科學論文的範疇。此外，我們貢獻了針對圖表、表格、公式和代碼識別的新穎公開數據集。實驗結果表明，SmolDocling在性能上可與體積大至27倍的其他視覺語言模型相媲美，同時大幅降低了計算需求。該模型現已可用，數據集即將公開。

PLADIS：利用稀疏性在推理時突破擴散模型注意力機制的極限
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity

Mar 10

ByKwanyoung Kim, Byeongsu Sim

擴散模型在使用如無分類器引導（CFG）等引導技術生成高質量條件樣本方面已展現出令人印象深刻的成果。然而，現有方法通常需要額外的訓練或神經函數評估（NFEs），這使得它們與引導蒸餾模型不相容。此外，這些方法依賴於需要識別目標層的啟發式方法。在本研究中，我們提出了一種新穎且高效的方法，稱為PLADIS，該方法通過利用稀疏注意力來增強預訓練模型（U-Net/Transformer）。具體而言，我們在推理過程中，利用softmax及其稀疏對應物在交叉注意力層中推斷查詢-鍵相關性，而無需額外的訓練或NFEs。通過利用稀疏注意力的噪聲魯棒性，我們的PLADIS釋放了文本到圖像擴散模型的潛在能力，使它們在曾經難以應對的領域中展現出新的效能。它無縫整合了包括引導蒸餾模型在內的各種引導技術。大量實驗顯示，在文本對齊和人類偏好方面均有顯著提升，提供了一種高效且普遍適用的解決方案。

API代理與GUI代理：分歧與融合
API Agents vs. GUI Agents: Divergence and Convergence

Mar 14

ByChaoyun Zhang, Shilin He, Liqun Li, Si Qin, Yu Kang, Qingwei Lin, Dongmei Zhang

大型語言模型（LLMs）已從單純的文本生成進化到驅動軟體代理，直接將自然語言指令轉化為具體行動。雖然基於API的LLM代理最初因其強大的自動化能力和與程序端點的無縫集成而嶄露頭角，但多模態LLM研究的最新進展使得基於GUI的LLM代理能夠以類似人類的方式與圖形用戶界面互動。儘管這兩種範式都旨在實現LLM驅動的任務自動化，但它們在架構複雜性、開發工作流程和用戶互動模式上存在顯著差異。本文首次對基於API和基於GUI的LLM代理進行了全面比較研究，系統地分析了它們的分歧和潛在的融合點。我們探討了關鍵維度，並強調了混合方法可以利用它們互補優勢的場景。通過提出清晰的決策標準並展示實際用例，我們旨在指導從業者和研究者在選擇、結合或轉換這些範式時做出明智的決定。最終，我們指出，LLM基於自動化的持續創新將模糊API驅動和GUI驅動代理之間的界限，為廣泛的現實應用中更靈活、適應性更強的解決方案鋪平道路。

VGGT：基於視覺幾何的Transformer模型
VGGT: Visual Geometry Grounded Transformer

Mar 14

ByJianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny

我們提出了VGGT，這是一種前饋神經網絡，能夠直接從場景的一個、多個或數百個視圖中推斷出所有關鍵的3D屬性，包括相機參數、點雲圖、深度圖和3D點軌跡。這一方法在3D計算機視覺領域邁出了重要一步，因為以往的模型通常受限於並專注於單一任務。VGGT不僅簡單高效，能在不到一秒的時間內重建圖像，而且在無需視覺幾何優化技術後處理的情況下，仍能超越其他替代方案。該網絡在多項3D任務中達到了最先進的水平，包括相機參數估計、多視圖深度估計、密集點雲重建和3D點追蹤。我們還展示了使用預訓練的VGGT作為特徵骨幹，能顯著提升下游任務的性能，如非剛性點追蹤和前饋新視圖合成。代碼和模型已公開於https://github.com/facebookresearch/vggt。

對抗性數據收集：人機協作擾動實現高效且穩健的機器人模仿學習
Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning

Mar 14

BySiyuan Huang, Yue Liao, Siyuan Feng, Shu Jiang, Si Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren

在機器人操作領域，追求數據效率——即質量勝於數量——已成為一項核心原則，尤其是在現實世界數據收集成本高昂的背景下。我們提出，最大化單個示範的信息密度可以顯著減少對大規模數據集的依賴，同時提升任務表現。為此，我們引入了對抗性數據收集（Adversarial Data Collection, ADC），這是一種人機協同（Human-in-the-Loop, HiL）框架，通過實時、雙向的人與環境互動重新定義了機器人數據採集方式。與被動記錄靜態示範的傳統流程不同，ADC採用了一種協作擾動範式：在單次任務中，對抗性操作者動態改變物體狀態、環境條件和語言指令，而遠程操作者則自適應調整動作以應對這些不斷變化的挑戰。這一過程將多樣的失敗恢復行為、組合任務變體及環境擾動壓縮至最少的示範中。我們的實驗表明，經ADC訓練的模型在對未見任務指令的組合泛化能力、對感知擾動的魯棒性以及錯誤恢復能力的湧現方面均表現優異。引人注目的是，僅使用ADC收集的20%示範量訓練的模型，其性能顯著超越使用完整數據集的傳統方法。這些進展彌合了以數據為中心的學習範式與實際機器人部署之間的差距，證明了戰略性數據採集（而非僅僅事後處理）對於可擴展的現實世界機器人學習至關重要。此外，我們正在構建一個大規模的ADC-Robotics數據集，包含帶有對抗性擾動的真實世界操作任務。這一基準將開源，以促進機器人模仿學習的進步。

效能與效率技術：狀態空間模型綜述
Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models

Mar 14

ByXingtai Lv, Youbang Sun, Kaiyan Zhang, Shang Qu, Xuekai Zhu, Yuchen Fan, Yi Wu, Ermo Hua, Xinwei Long, Ning Ding, Bowen Zhou

狀態空間模型（SSMs）已成為基於Transformer的流行模型的有力替代方案，並日益受到關注。與Transformer相比，SSMs在處理序列數據或較長上下文任務時表現出色，展現出可媲美的性能，同時顯著提升了效率。在本篇綜述中，我們為SSMs提供了一個連貫且系統的概述，涵蓋其理論動機、數學公式、與現有模型類別的比較，以及多種應用。我們將SSM系列劃分為三個主要部分，詳細介紹了原始SSM、以S4為代表的結構化SSM，以及以Mamba為例的選擇性SSM。我們著重於技術性，並強調了為提升SSMs有效性和效率而引入的各種關鍵技術。我們希望這份手稿能作為研究人員探索SSMs理論基礎的入門指南。

Vamba：利用混合Mamba-Transformer架构理解时长一小时视频
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

Mar 14

ByWeiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen

基於Transformer的大型多模態模型（LMMs）在處理長達一小時的視頻輸入時面臨挑戰，這是由於因果自注意力操作的二次方複雜性，導致訓練和推理過程中的高計算成本。現有的基於令牌壓縮的方法雖然減少了視頻令牌的數量，但往往會造成信息損失，並且在處理極長序列時仍然效率低下。本文探索了一種正交方向，構建了一種混合Mamba-Transformer模型（VAMBA），該模型利用Mamba-2塊以線性複雜度對視頻令牌進行編碼。在沒有任何令牌減少的情況下，VAMBA可以在單個GPU上編碼超過1024幀（640×360）的視頻，而基於Transformer的模型僅能編碼256幀。在長視頻輸入上，VAMBA在訓練和推理過程中至少減少了50%的GPU內存使用量，並且每訓練步驟的速度幾乎是基於Transformer的LMMs的兩倍。我們的實驗結果表明，在具有挑戰性的一小時視頻理解基準LVBench上，VAMBA相比之前的高效視頻LMMs提高了4.3%的準確率，並在廣泛的長短視頻理解任務中保持了強勁的性能。

FlowTok：無縫流轉於文本與圖像標記之間
FlowTok: Flowing Seamlessly Across Text and Image Tokens

Mar 13

ByJu He, Qihang Yu, Qihao Liu, Liang-Chieh Chen

跨模态生成的核心在于桥接不同模态。传统方法将文本模态视为一种条件信号，逐步引导从高斯噪声到目标图像模态的去噪过程，而我们探索了一种更为简洁的范式——通过流匹配直接在文本与图像模态之间进行演化。这需要将两种模态投影到一个共享的潜在空间中，由于它们本质上的不同表示方式，这一任务颇具挑战性：文本具有高度语义性，被编码为一维标记，而图像则具有空间冗余性，表示为二维潜在嵌入。为解决这一问题，我们引入了FlowTok，这是一个通过将图像编码为紧凑的一维标记表示，从而在文本与图像之间无缝流动的极简框架。与现有方法相比，该设计在256分辨率下将潜在空间大小减少了3.3倍，无需复杂的条件机制或噪声调度。此外，FlowTok在同一框架下自然延伸至图像到文本的生成。凭借其围绕紧凑一维标记构建的简洁架构，FlowTok具有极高的内存效率，显著减少训练资源需求，并实现更快的采样速度——同时保持与最先进模型相当的性能。代码将在https://github.com/bytedance/1d-tokenizer 提供。

探索聯邦學習的脆弱性：深入剖析梯度反轉攻擊
Exploring the Vulnerabilities of Federated Learning: A Deep Dive into Gradient Inversion Attacks

Mar 13

ByPengxin Guo, Runxi Wang, Shuang Zeng, Jinjing Zhu, Haoning Jiang, Yanran Wang, Yuyin Zhou, Feifei Wang, Hui Xiong, Liangqiong Qu

聯邦學習（Federated Learning, FL）作為一種無需共享原始數據的隱私保護協同模型訓練範式，已展現出巨大潛力。然而，近期研究揭示，通過共享的梯度信息仍可能洩露隱私，並遭受梯度反轉攻擊（Gradient Inversion Attacks, GIA）的威脅。儘管已有眾多GIA方法被提出，但對這些方法的詳細分析、評估與總結仍顯不足。雖然多篇綜述論文總結了FL中的現有隱私攻擊，但鮮有研究通過大量實驗來揭示GIA的有效性及其在該情境下的限制因素。為填補這一空白，我們首先對GIA進行了系統性回顧，並將現有方法分為三類，即基於優化的GIA（OP-GIA）、基於生成的GIA（GEN-GIA）和基於分析的GIA（ANA-GIA）。隨後，我們全面分析並評估了FL中這三類GIA，深入探討了影響其性能、實用性及潛在威脅的因素。我們的研究發現，儘管OP-GIA的表現未盡如人意，但它是最為實用的攻擊設定；而GEN-GIA存在諸多依賴性，ANA-GIA則易於被檢測，使得兩者均不具備實用性。最後，我們為用戶設計FL框架和協議時提供了一個三階段防禦流程，以實現更好的隱私保護，並從攻擊者與防禦者的角度分享了一些我們認為應予探索的未來研究方向。我們希望本研究能幫助研究人員設計出更為健壯的FL框架，以抵禦這些攻擊。

TxAgent：一款跨工具宇宙進行治療推理的AI代理
TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools

Mar 14

ByShanghua Gao, Richard Zhu, Zhenglun Kong, Ayush Noori, Xiaorui Su, Curtis Ginder, Theodoros Tsiligkaridis, Marinka Zitnik

精準醫療需要多模態自適應模型來生成個性化治療建議。我們介紹了TxAgent，這是一種利用多步推理和實時生物醫學知識檢索的AI代理，通過211種工具組來分析藥物相互作用、禁忌症和患者特徵治療策略。TxAgent評估藥物在分子、藥代動力學和臨床層面的相互作用，根據患者共病和併用藥物識別禁忌症，並根據個體患者特徵定制治療策略。它從多個生物醫學來源檢索和綜合證據，評估藥物與患者狀況之間的相互作用，並通過迭代推理完善治療建議。它根據任務目標選擇工具，並執行結構化函數調用以解決需要臨床推理和跨來源驗證的治療任務。ToolUniverse整合了來自可信來源的211種工具，包括自1939年以來所有美國FDA批准的藥物以及來自Open Targets的驗證臨床見解。TxAgent在五個新基準測試（DrugPC、BrandPC、GenericPC、TreatmentPC和DescriptionPC）中表現優於領先的LLM、工具使用模型和推理代理，涵蓋了3,168個藥物推理任務和456個個性化治療場景。它在開放式藥物推理任務中達到了92.1%的準確率，超越了GPT-4o，並在結構化多步推理中優於DeepSeek-R1（671B）。TxAgent能夠泛化處理藥物名稱變體和描述。通過整合多步推理、實時知識基礎和工具輔助決策，TxAgent確保治療建議符合既定的臨床指南和現實世界證據，降低不良事件風險並改善治療決策。

科爾莫戈羅夫-阿諾德注意力：可學習的注意力機制是否更適合視覺Transformer？
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?

Mar 13

BySubhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta

科爾莫戈羅夫-阿諾德網絡（KANs）是一項顯著的創新，其由可學習的激活函數構成，具有捕捉數據中更複雜關係的潛力。儘管KANs在尋找符號表示和持續學習一維函數方面頗具效用，但它在多樣化的機器學習（ML）任務，如視覺領域中的有效性仍存疑。目前，KANs通過在深度網絡架構中替代多層感知器（MLPs）來部署，包括視覺Transformer（ViTs）等先進架構。在本論文中，我們首次設計了一種通用的可學習科爾莫戈羅夫-阿諾德注意力（KArAt），適用於基礎ViTs，能在任意基函數選擇下運作。然而，訓練它們的計算和記憶體成本促使我們提出了一個更模塊化的版本，並設計了特定的可學習注意力，稱為傅立葉-KArAt。傅立葉-KArAt及其變體在CIFAR-10、CIFAR-100和ImageNet-1K數據集上要麼超越了其ViT對應物，要麼表現出相當的性能。我們通過分析這些架構的損失景觀、權重分佈、優化器路徑、注意力視覺化及頻譜行為，並與基礎ViTs進行對比，剖析了它們的性能和泛化能力。本文的目的並非創造參數和計算效率高的注意力機制，而是鼓勵社區探索KANs與需要深入理解可學習激活函數的更先進架構的結合。我們的開源代碼和實現細節可在以下網址獲取：https://subhajitmaity.me/KArAt

大規模預訓練用於基於視覺的影片描述生成
Large-scale Pre-training for Grounded Video Caption Generation

Mar 13

ByEvangelos Kazakos, Cordelia Schmid, Josef Sivic

我們提出了一種新穎的視頻字幕生成與物體定位方法，其中字幕中的物體通過時間密集的邊界框在視頻中進行定位。我們的主要貢獻如下：首先，我們提出了一種大規模自動標註方法，該方法將帶有邊界框的字幕跨幀聚合，形成時間上密集且一致的邊界框標註。我們將此方法應用於HowTo100M數據集，構建了一個名為HowToGround1M的大規模預訓練數據集。同時，我們引入了名為GROVE的基於視頻字幕生成的定位模型，並在HowToGround1M上對其進行預訓練。其次，我們引入了一個新的數據集iGround，包含3500個視頻，這些視頻配有手動標註的字幕及密集的時空定位邊界框。這使我們能夠衡量這一挑戰性問題的進展，並在此小規模但高質量的數據上對模型進行微調。第三，我們展示了與多種基線模型相比，我們的方法在提出的iGround數據集上達到了最先進的結果，同時在VidSTG和ActivityNet-Entities數據集上也表現優異。我們進行了廣泛的消融實驗，證明了使用我們自動標註的HowToGround1M數據集進行預訓練，隨後在手動標註的iGround數據集上進行微調的重要性，並驗證了我們模型的關鍵技術貢獻。

ETCH：通過等變緊緻性將身體擬合推廣至著衣人體
ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

Mar 13

ByBoqian Li, Haiwen Feng, Zeyu Cai, Michael J. Black, Yuliang Xiu

將人體擬合到三維著衣人體點雲是一項常見但具有挑戰性的任務。傳統基於優化的方法採用多階段流程，這些流程對姿態初始化敏感，而最近的學習方法往往難以在各種姿態和服裝類型之間實現泛化。我們提出了等變緊密度擬合著衣人體（Equivariant Tightness Fitting for Clothed Humans，簡稱ETCH），這是一種新穎的流程，通過局部近似SE(3)等變性來估計布料到體表的映射，將緊密度編碼為從布料表面到內在身體的位移向量。根據此映射，姿態不變的身體特徵回歸稀疏的身體標記，將著衣人體擬合簡化為內在身體標記擬合任務。在CAPE和4D-Dress上的大量實驗表明，ETCH在寬鬆服裝的身體擬合精度（16.7% ~ 69.5%）和形狀精度（平均49.9%）上顯著優於最先進的方法——無論是無視緊密度還是考慮緊密度的方法。我們的等變緊密度設計甚至可以在一次性（或分佈外）設置中將方向誤差減少（67.2% ~ 89.8%）。定性結果展示了ETCH在面對挑戰性姿態、未見過的形狀、寬鬆服裝和非剛性動力學時的強大泛化能力。我們將很快在https://boqian-li.github.io/ETCH/上發布代碼和模型以供研究用途。

通過軌跡分佈匹配學習少步擴散模型
Learning Few-Step Diffusion Models by Trajectory Distribution Matching

Mar 9

ByYihong Luo, Tianyang Hu, Jiacheng Sun, Yujun Cai, Jing Tang

加速擴散模型採樣對於高效部署AIGC至關重要。雖然基於分佈匹配和軌跡匹配的擴散蒸餾方法能將採樣步驟減少至僅需一步，但這些方法在處理如文本到圖像生成等複雜任務時表現欠佳。少步生成在速度與質量之間提供了更好的平衡，但現有方法面臨一個持續的權衡：分佈匹配在多步採樣中缺乏靈活性，而軌跡匹配往往導致圖像質量不佳。為彌合這一差距，我們提出通過軌跡分佈匹配（TDM）學習少步擴散模型，這是一種結合了分佈匹配和軌跡匹配優勢的統一蒸餾範式。我們的方法引入了一種無數據的得分蒸餾目標，在分佈層面上對齊學生模型與教師模型的軌跡。此外，我們開發了一種採樣步驟感知的目標，解耦了不同步驟的學習目標，從而實現更可調節的採樣。這種方法既支持確定性採樣以獲得優質圖像，也支持靈活的多步適應，以卓越的效率達到了最先進的性能。我們的模型TDM在多種骨幹網絡（如SDXL和PixArt-alpha）上均優於現有方法，提供了更高的質量並顯著降低了訓練成本。特別是，我們的方法將PixArt-alpha蒸餾成一個4步生成器，在1024分辨率下根據真實用戶偏好超越了其教師模型。這僅需500次迭代和2個A800小時——僅為教師模型訓練成本的0.01%。此外，我們提出的TDM還可以擴展到加速文本到視頻的擴散。值得注意的是，TDM在VBench上僅使用4個NFE即可超越其教師模型（CogVideoX-2B），將總分從80.91提升至81.65。項目頁面：https://tdm-t2x.github.io/

鄰域自回歸建模用於高效視覺生成
Neighboring Autoregressive Modeling for Efficient Visual Generation

Mar 12

ByYefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

視覺自回歸模型通常遵循一種光柵順序的「下一個標記預測」範式，這種方法忽略了視覺內容中固有的空間和時間局部性。具體而言，視覺標記與其空間或時間上相鄰的標記之間的相關性，遠比與遠處標記的相關性更強。在本文中，我們提出了鄰近自回歸建模（NAR），這是一種新穎的範式，將自回歸視覺生成建模為一種逐步外繪的過程，遵循從近到遠的「下一個鄰居預測」機制。從初始標記開始，剩餘的標記按照它們在時空空間中與初始標記的曼哈頓距離的升序進行解碼，逐步擴展解碼區域的邊界。為了實現時空空間中多個相鄰標記的並行預測，我們引入了一組面向維度的解碼頭，每個解碼頭沿著相互正交的維度預測下一個標記。在推理過程中，所有與已解碼標記相鄰的標記都會被並行處理，從而大幅減少生成過程中的模型前向步驟。在ImageNet256×256和UCF101上的實驗表明，與PAR-4X方法相比，NAR分別實現了2.4倍和8.6倍的吞吐量提升，同時在圖像和視頻生成任務中獲得了更優的FID/FVD分數。在文本到圖像生成基準測試GenEval上評估時，擁有0.8B參數的NAR在僅使用0.4倍訓練數據的情況下，表現優於Chameleon-7B。代碼可在https://github.com/ThisisBillhe/NAR獲取。

從TOWER到SPIRE：為純文本大型語言模型加入語音模態
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM

Mar 13

ByKshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins

大型語言模型（LLMs）在多種語言和任務中展現了卓越的性能和泛化能力，這使得它們成為多模態整合（例如圖像或語音）極具吸引力的目標。在本研究中，我們通過語音離散化和持續預訓練，將現有的LLM擴展至語音模態。特別是，我們對多語言LLM（如TOWER）感興趣，因為其預訓練設置使我們能夠將離散化語音輸入視為一種額外的翻譯語言。由此產生的開源模型SPIRE，能夠轉錄並翻譯英語語音輸入，同時保持TOWER在翻譯相關任務上的原始性能，展示了在LLM適應過程中將離散化語音輸入作為額外語言整合的可行性。我們將代碼和模型公開給社群。

ARMOR v0.1：通過非對稱協同實現交錯多模態生成，增強自回歸多模態理解模型
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy

Mar 9

ByJianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang

統一模型（UniMs）在多模態理解與生成領域近期受到了視覺與語言研究界的廣泛關注。現有的UniMs旨在同時學習多模態理解與生成能力，這需要大量的計算資源，並且在生成交錯的文本與圖像時往往面臨挑戰。我們提出了ARMOR，這是一個資源高效且純自迴歸的框架，通過微調現有的多模態大語言模型（MLLMs）來實現理解與生成。具體而言，ARMOR從三個方面擴展了現有的MLLMs：（1）在模型架構上，引入了一種帶有前向切換機制的不對稱編碼器-解碼器架構，以統一整合文本與視覺模態的嵌入空間，從而實現自然的文本-圖像交錯生成，同時最小化計算開銷。（2）在訓練數據方面，精心收集了一個高質量的交錯數據集，用於微調MLLMs。（3）在訓練算法上，我們提出了一種“生成什麼或如何生成”的算法，通過基於所收集數據集的三個漸進訓練階段，賦予現有MLLMs多模態生成能力，同時保留其多模態理解能力。實驗結果表明，ARMOR利用有限的訓練資源，將現有的MLLMs升級為具有良好圖像生成能力的UniMs。我們的代碼將於近期在https://armor.github.io發布。

MaRI：跨領域材料檢索整合
MaRI: Material Retrieval Integration across Domains

Mar 11

ByJianhui Wang, Zhifei Yang, Yangfan He, Huixiong Zhang, Yuxuan Chen, Jingwei Huang

精確的材料檢索對於創建逼真的3D資產至關重要。現有方法依賴於捕捉形狀不變和光照多樣的材料表示的數據集，這些數據集稀缺且因多樣性有限和現實世界泛化能力不足而面臨挑戰。目前大多數方法採用傳統的圖像搜索技術，這些技術在捕捉材料空間的獨特屬性方面表現不足，導致檢索任務的性能欠佳。為應對這些挑戰，我們引入了MaRI，這是一個旨在彌合合成與現實世界材料之間特徵空間差距的框架。MaRI通過對比學習策略構建了一個共享的嵌入空間，該策略通過聯合訓練圖像和材料編碼器，使相似的材料和圖像在特徵空間中更接近，同時分離不相似的對。為支持這一點，我們構建了一個全面的數據集，包含使用受控形狀變化和多樣光照條件渲染的高質量合成材料，以及使用材料傳輸技術處理和標準化的現實世界材料。大量實驗表明，MaRI在多樣且複雜的材料檢索任務中表現出卓越的性能、準確性和泛化能力，優於現有方法。

ProJudge：一個多模態多領域的基準測試與指令微調數據集，專為基於多模態大語言模型的流程評判而設計
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

Mar 9

ByJiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang

由於多模態大型語言模型（MLLMs）在解決科學問題時頻繁出現錯誤，評估其推理過程的有效性對於確保可靠性及揭示細粒度模型弱點至關重要。鑑於人工評估既耗時又昂貴，利用MLLMs作為自動化過程評判者已成為常見做法。然而，這些基於模型的評判者的可靠性仍不確定。為此，我們推出了ProJudgeBench，這是首個專為評估基於MLLM的過程評判者能力而設計的綜合基準。ProJudgeBench包含2,400個測試案例和50,118個步驟級標籤，涵蓋四個科學學科，具有多樣化的難度級別和多模態內容。在ProJudgeBench中，每個步驟均由人類專家精心註釋其正確性、錯誤類型和解釋，從而系統地評估評判者檢測、分類和診斷錯誤的能力。在ProJudgeBench上的評估顯示，開源模型與專有模型之間存在顯著的性能差距。為彌補這一差距，我們進一步提出了ProJudge-173k，這是一個大規模的指令微調數據集，以及一種動態雙階段微調策略，該策略鼓勵模型在評估解決方案之前明確地進行問題解決推理。這兩項貢獻顯著增強了開源模型的過程評估能力。所有資源將被公開，以促進未來可靠多模態過程評估的研究。

CHOrD：生成無碰撞、住宅規模且結構化的3D室內場景數位孿生，具可控平面圖與最佳佈局
CHOrD: Generation of Collision-Free, House-Scale, and Organized Digital Twins for 3D Indoor Scenes with Controllable Floor Plans and Optimal Layouts

Mar 15

ByChong Su, Yingbin Fu, Zheyuan Hu, Jing Yang, Param Hanji, Shaojun Wang, Xuan Zhao, Cengiz Öztireli, Fangcheng Zhong

我們介紹了CHOrD，這是一個用於可擴展合成3D室內場景的新框架，旨在創建房屋規模、無碰撞且具有層次結構的室內數字孿生。與現有方法直接將場景佈局合成為場景圖或物體列表不同，CHOrD引入了一種基於2D圖像的中間佈局表示，通過在生成過程中成功捕捉這些異常分佈（OOD）場景，有效防止了碰撞偽影的產生。此外，與現有方法不同，CHOrD能夠生成符合複雜平面圖的多模態控制場景佈局，從而創建出在房間結構的幾何和語義變化下均保持一致的房屋範圍佈局。我們還提出了一個新數據集，該數據集擴展了家居物品和房間配置的覆蓋範圍，並顯著提高了數據質量。CHOrD在3D-FRONT和我們提出的數據集上均展示了最先進的性能，提供了可適應任意平面圖變化的逼真且空間連貫的室內場景合成。

TreeMeshGPT：基於自迴歸樹序列的藝術化網格生成
TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing

Mar 14

ByStefan Lionar, Jiabin Liang, Gim Hee Lee

我們介紹了TreeMeshGPT，這是一種自回歸Transformer，旨在生成與輸入點雲對齊的高質量藝術網格。與傳統自回歸Transformer中的下一個令牌預測不同，我們提出了一種新穎的自回歸樹序列化方法，其中下一個輸入令牌是從一個動態增長的樹結構中檢索的，該樹結構基於網格內面的三角形鄰接關係構建。我們的序列化方法使得網格能夠在每一步從最後生成的三角形面局部擴展，從而降低了訓練難度並提高了網格質量。我們的方法用兩個令牌表示每個三角形面，與簡單的面令牌化相比，實現了約22%的壓縮率。這種高效的令牌化使我們的模型能夠生成具有強點雲條件的高度詳細的藝術網格，在容量和保真度方面均超越了先前的方法。此外，我們的方法生成的網格具有強的法線方向約束，最大限度地減少了先前方法中常見的法線翻轉問題。我們的實驗表明，TreeMeshGPT通過精細的細節和法線方向一致性提升了網格生成質量。

大型推理模型能否在感知不确定性下進行類比推理？
Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?

Mar 14

ByGiacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

本研究首次對兩款最先進的大型推理模型（LRMs）——OpenAI的o3-mini和DeepSeek R1——在類比推理上的表現進行了評估，重點關注基於瑞文漸進矩陣的非言語人類智商測試。我們使用I-RAVEN數據集及其更難的擴展版本I-RAVEN-X進行基準測試，後者測試了模型在更長推理規則和屬性值範圍上的泛化能力。為了評估視覺不確定性對這些非言語類比推理測試的影響，我們擴展了I-RAVEN-X數據集，該數據集原本假設了完美的感知能力。我們採用雙重策略來模擬這種不完美的視覺感知：1）引入混淆屬性，這些屬性隨機採樣，不影響謎題正確答案的預測；2）平滑輸入屬性值的分佈。我們觀察到OpenAI的o3-mini任務準確率急劇下降，從原始I-RAVEN上的86.6%降至更具挑戰性的I-RAVEN-X上的17.0%——接近隨機猜測——後者增加了輸入長度和範圍，並模擬了感知不確定性。儘管使用了3.4倍多的推理token，這一下降仍然發生。DeepSeek R1也呈現出類似趨勢：從80.6%降至23.2%。另一方面，在I-RAVEN上達到最先進性能的神經符號概率溯因模型ARLC，在這些分佈外測試中能夠穩健地進行推理，僅從98.6%略微降至88.0%，保持了較高的準確率。我們的代碼可在https://github.com/IBM/raven-large-language-models 獲取。

開放世界技能發現於未分段示範中
Open-World Skill Discovery from Unsegmented Demonstrations

Mar 11

ByJingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang

在開放世界環境中學習技能對於開發能夠結合基本技能處理多種任務的智能體至關重要。線上示範視頻通常較長且未經分段，這使得它們難以被分割並標註技能識別符。與依賴序列採樣或人工標註的現有方法不同，我們開發了一種基於自監督學習的方法，將這些長視頻分割成一系列語義感知且技能一致的片段。受人類認知事件分割理論的啟發，我們引入了技能邊界檢測（Skill Boundary Detection, SBD），這是一種無需註釋的時間視頻分割算法。SBD通過利用預訓練的無條件動作預測模型的預測誤差來檢測視頻中的技能邊界。該方法基於這樣一個假設：預測誤差的顯著增加表明正在執行的技能發生了轉變。我們在《我的世界》（Minecraft）這一擁有豐富線上遊戲視頻的開放世界模擬器中評估了我們的方法。我們通過SBD生成的片段，將條件策略在短期原子技能任務上的平均性能提升了63.7%和52.1%，並將相應的分層智能體在長期任務上的性能提升了11.3%和20.8%。我們的方法能夠利用多樣的YouTube視頻來訓練遵循指令的智能體。項目頁面可在https://craftjarvis.github.io/SkillDiscovery找到。

Cockatiel：整合合成與人類偏好訓練的細粒度影片描述生成
Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption

Mar 12

ByLuozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li

視頻細緻描述（VDC）是視覺語言橋接中的一項關鍵任務，旨在對複雜視頻內容進行細粒度描述。本文首先全面評估了當前最先進的方法，並系統性地識別出兩個關鍵限制：對特定描述方面的能力偏見以及與人類偏好的不一致。為解決這些不足，我們提出了Cockatiel，一種新穎的三階段訓練流程，通過合成與人類對齊的訓練來提升VDC性能。在第一階段，我們從一個精心註釋的數據集中導出評分器，用於選擇在特定細粒度視頻-描述對齊和人類偏好方面表現優異的合成描述，同時忽略其他。接著，我們使用這一精選數據集訓練Cockatiel-13B，使其融合模型優勢與人類偏好。最後，我們進一步從Cockatiel-13B中蒸餾出Cockatiel-8B，以便於使用。大量的定量與定性實驗證明了我們方法的有效性，我們不僅在VDCSCORE上以維度平衡的方式設定了新的性能標杆，而且根據人類評估結果，在人類偏好方面大幅領先於其他主要方案。

GoalFlow：面向端到端自动驾驶的多模态轨迹生成之目标驱动流匹配
GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving

Mar 7

ByZebin Xing, Xingyu Zhang, Yang Hu, Bo Jiang, Tong He, Qian Zhang, Xiaoxiao Long, Wei Yin

我們提出GoalFlow，一種端到端的自動駕駛方法，用於生成高質量的多模態軌跡。在自動駕駛場景中，很少存在單一合適的軌跡。最近的方法越來越注重建模多模態軌跡分佈。然而，由於軌跡的高發散性以及引導信息與場景信息之間的不一致性，這些方法面臨軌跡選擇複雜性和軌跡質量下降的問題。為了解決這些問題，我們引入了GoalFlow，這是一種新穎的方法，能夠有效約束生成過程以產生高質量的多模態軌跡。為了解決基於擴散方法固有的軌跡發散問題，GoalFlow通過引入目標點來約束生成的軌跡。GoalFlow建立了一種新穎的評分機制，根據場景信息從候選點中選擇最合適的目標點。此外，GoalFlow採用高效的生成方法Flow Matching來生成多模態軌跡，並結合精煉的評分機制從候選軌跡中選擇最佳軌跡。我們在NavsimDauner2024_navsim上驗證的實驗結果表明，GoalFlow實現了最先進的性能，為自動駕駛提供了穩健的多模態軌跡。GoalFlow的PDMS達到了90.3，顯著超越了其他方法。與其他基於擴散策略的方法相比，我們的方法僅需一次去噪步驟即可獲得優異的性能。代碼可在https://github.com/YvanYin/GoalFlow獲取。

群組穩健的機器遺忘
Group-robust Machine Unlearning

Mar 12

ByThomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini

機器遺忘是一種新興範式，旨在從模型中移除特定訓練數據（即遺忘集）的影響，同時保留其對其餘數據（即保留集）的知識。先前的方法假設遺忘數據在所有訓練數據點中均勻分佈。然而，如果待遺忘的數據在某個群體中占主導地位，我們通過實驗證明，該群體的性能會下降，從而導致公平性問題。本研究針對被忽視的非均勻分佈遺忘集問題，提出了一種簡單有效的策略，通過樣本分佈重加權來減輕主導群體中的性能損失，我們稱之為群體魯棒的機器遺忘。此外，我們提出了MIU（基於互信息的機器遺忘），這是首個在近似機器遺忘中實現群體魯棒性的方法。MIU通過最小化模型特徵與群體信息之間的互信息，在實現遺忘的同時減少遺忘集中主導群體的性能下降。此外，MIU利用樣本分佈重加權和與原始模型的互信息校準來保持群體魯棒性。我們在三個數據集上進行了實驗，結果表明MIU優於標準方法，在實現遺忘的同時不損害模型的魯棒性。源代碼可在https://github.com/tdemin16/group-robust_machine_unlearning獲取。

AI研究論文每日精選

每日精選AI研究論文及翻譯

ReCamMaster：基於單一視頻的相機控制生成式渲染
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

Mar 14

ByJianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang

146

SmolDocling：一款超紧凑的视觉-语言模型，用于端到端的多模态文档转换
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

Mar 14

138

PLADIS：利用稀疏性在推理時突破擴散模型注意力機制的極限
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity

Mar 10

ByKwanyoung Kim, Byeongsu Sim

API代理與GUI代理：分歧與融合
API Agents vs. GUI Agents: Divergence and Convergence

Mar 14

ByChaoyun Zhang, Shilin He, Liqun Li, Si Qin, Yu Kang, Qingwei Lin, Dongmei Zhang

VGGT：基於視覺幾何的Transformer模型
VGGT: Visual Geometry Grounded Transformer

Mar 14

ByJianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny

對抗性數據收集：人機協作擾動實現高效且穩健的機器人模仿學習
Adversarial Data Collection: Human-Collaborative Perturbations for Efficient and Robust Robotic Imitation Learning

Mar 14

BySiyuan Huang, Yue Liao, Siyuan Feng, Shu Jiang, Si Liu, Hongsheng Li, Maoqing Yao, Guanghui Ren

效能與效率技術：狀態空間模型綜述
Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models

Mar 14

ByXingtai Lv, Youbang Sun, Kaiyan Zhang, Shang Qu, Xuekai Zhu, Yuchen Fan, Yi Wu, Ermo Hua, Xinwei Long, Ning Ding, Bowen Zhou

Vamba：利用混合Mamba-Transformer架构理解时长一小时视频
Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

Mar 14

ByWeiming Ren, Wentao Ma, Huan Yang, Cong Wei, Ge Zhang, Wenhu Chen

FlowTok：無縫流轉於文本與圖像標記之間
FlowTok: Flowing Seamlessly Across Text and Image Tokens

Mar 13

ByJu He, Qihang Yu, Qihao Liu, Liang-Chieh Chen

探索聯邦學習的脆弱性：深入剖析梯度反轉攻擊
Exploring the Vulnerabilities of Federated Learning: A Deep Dive into Gradient Inversion Attacks

Mar 13

ByPengxin Guo, Runxi Wang, Shuang Zeng, Jinjing Zhu, Haoning Jiang, Yanran Wang, Yuyin Zhou, Feifei Wang, Hui Xiong, Liangqiong Qu

TxAgent：一款跨工具宇宙進行治療推理的AI代理
TxAgent: An AI Agent for Therapeutic Reasoning Across a Universe of Tools

Mar 14

ByShanghua Gao, Richard Zhu, Zhenglun Kong, Ayush Noori, Xiaorui Su, Curtis Ginder, Theodoros Tsiligkaridis, Marinka Zitnik

科爾莫戈羅夫-阿諾德注意力：可學習的注意力機制是否更適合視覺Transformer？
Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?

Mar 13

BySubhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta

大規模預訓練用於基於視覺的影片描述生成
Large-scale Pre-training for Grounded Video Caption Generation

Mar 13

ByEvangelos Kazakos, Cordelia Schmid, Josef Sivic

ETCH：通過等變緊緻性將身體擬合推廣至著衣人體
ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

Mar 13

ByBoqian Li, Haiwen Feng, Zeyu Cai, Michael J. Black, Yuliang Xiu

通過軌跡分佈匹配學習少步擴散模型
Learning Few-Step Diffusion Models by Trajectory Distribution Matching

Mar 9

ByYihong Luo, Tianyang Hu, Jiacheng Sun, Yujun Cai, Jing Tang

鄰域自回歸建模用於高效視覺生成
Neighboring Autoregressive Modeling for Efficient Visual Generation

Mar 12

ByYefei He, Yuanyu He, Shaoxuan He, Feng Chen, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

從TOWER到SPIRE：為純文本大型語言模型加入語音模態
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM

Mar 13

ByKshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins

ARMOR v0.1：通過非對稱協同實現交錯多模態生成，增強自回歸多模態理解模型
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy

Mar 9

ByJianwen Sun, Yukang Feng, Chuanhao Li, Fanrui Zhang, Zizhen Li, Jiaxin Ai, Sizhuo Zhou, Yu Dai, Shenglin Zhang, Kaipeng Zhang

MaRI：跨領域材料檢索整合
MaRI: Material Retrieval Integration across Domains

Mar 11

ByJianhui Wang, Zhifei Yang, Yangfan He, Huixiong Zhang, Yuxuan Chen, Jingwei Huang

ProJudge：一個多模態多領域的基準測試與指令微調數據集，專為基於多模態大語言模型的流程評判而設計
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

Mar 9

ByJiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang

CHOrD：生成無碰撞、住宅規模且結構化的3D室內場景數位孿生，具可控平面圖與最佳佈局
CHOrD: Generation of Collision-Free, House-Scale, and Organized Digital Twins for 3D Indoor Scenes with Controllable Floor Plans and Optimal Layouts

Mar 15

ByChong Su, Yingbin Fu, Zheyuan Hu, Jing Yang, Param Hanji, Shaojun Wang, Xuan Zhao, Cengiz Öztireli, Fangcheng Zhong

Cockatiel：整合合成與人類偏好訓練的細粒度影片描述生成
Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption

Mar 12

ByLuozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li

GoalFlow：面向端到端自动驾驶的多模态轨迹生成之目标驱动流匹配
GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving

Mar 7

ByZebin Xing, Xingyu Zhang, Yang Hu, Bo Jiang, Tong He, Qian Zhang, Xiaoxiao Long, Wei Yin

群組穩健的機器遺忘
Group-robust Machine Unlearning

Mar 12

ByThomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini