AI研究論文每日精選

每日精選AI研究論文及翻譯

大型語言模型基於代理的評估綜述
Survey on Evaluation of LLM-based Agents

Mar 20

ByAsaf Yehudai, Lilach Eden, Alan Li, Guy Uziel, Yilun Zhao, Roy Bar-Haim, Arman Cohan, Michal Shmueli-Scheuer

基於大型語言模型（LLM）的智能體之興起，標誌著人工智慧領域的一次範式轉移，使自主系統能夠在與動態環境互動時進行規劃、推理、使用工具並維持記憶。本文首次全面綜述了針對這些日益強大的智能體的評估方法。我們系統性地分析了四大關鍵維度上的評估基準與框架：(1) 智能體的基本能力，包括規劃、工具使用、自我反思與記憶；(2) 針對網路、軟體工程、科學及對話型智能體的應用特定基準；(3) 通用型智能體的評估基準；以及(4) 智能體評估框架。我們的分析揭示了新興趨勢，包括轉向更為真實且具挑戰性的評估，並伴隨著持續更新的基準。同時，我們也指出了未來研究必須解決的關鍵缺口——特別是在評估成本效益、安全性與魯棒性，以及開發細粒度且可擴展的評估方法方面。本綜述描繪了智能體評估領域快速演進的圖景，揭示了該領域的新興趨勢，指出了當前限制，並為未來研究提出了方向。

一步殘差遷移擴散：基於蒸餾的圖像超分辨率方法
One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

Mar 17

ByDaniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin

超分辨率（SR）的擴散模型能夠生成高質量的視覺效果，但需要昂貴的計算成本。儘管已經開發了多種方法來加速基於擴散的SR模型，但一些方法（例如SinSR）未能產生逼真的感知細節，而其他方法（例如OSEDiff）可能會虛構不存在的結構。為了解決這些問題，我們提出了RSD，這是一種新的蒸餾方法，適用於ResShift，這是頂級的基於擴散的SR模型之一。我們的方法基於訓練學生網絡生成這樣的圖像，使得在這些圖像上訓練的新假ResShift模型將與教師模型一致。RSD實現了單步恢復，並且大幅超越了教師模型。我們展示了我們的蒸餾方法可以超越其他基於ResShift的蒸餾方法——SinSR，使其與最先進的基於擴散的SR蒸餾方法相媲美。與基於預訓練文本到圖像模型的SR方法相比，RSD產生了具有競爭力的感知質量，提供了與退化輸入圖像更好對齊的圖像，並且需要更少的參數和GPU內存。我們在各種真實世界和合成數據集上提供了實驗結果，包括RealSR、RealSet65、DRealSR、ImageNet和DIV2K。

停止過度思考：大型語言模型高效推理研究綜述
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

Mar 20

ByYang Sui, Yu-Neng Chuang, Guanchu Wang, Jiamu Zhang, Tianyi Zhang, Jiayi Yuan, Hongyi Liu, Andrew Wen, Shaochen, Zhong, Hanjie Chen, Xia Hu

大型語言模型（LLMs）在複雜任務中展現了卓越的能力。近期，大型推理模型（LRMs）如OpenAI o1和DeepSeek-R1的進展，通過利用監督微調（SFT）和強化學習（RL）技術來增強鏈式思維（CoT）推理，進一步提升了在數學和編程等系統二推理領域的表現。然而，雖然更長的CoT推理序列能提高性能，但也因冗長且重複的輸出引入了顯著的計算開銷，這一現象被稱為「過度思考現象」。本文首次提供了一份結構化的調查，系統性地探討了在LLMs中實現高效推理的當前進展。總體而言，基於LLMs的內在機制，我們將現有工作分為幾個關鍵方向：（1）基於模型的高效推理，考慮將全長推理模型優化為更簡潔的推理模型或直接訓練高效推理模型；（2）基於推理輸出的高效推理，旨在推理過程中動態減少推理步驟和長度；（3）基於輸入提示的高效推理，尋求根據輸入提示的屬性（如難度或長度控制）來提升推理效率。此外，我們還介紹了使用高效數據訓練推理模型的方法，探討了小型語言模型的推理能力，並討論了評估方法和基準測試。

由內而外：大型語言模型中的隱含事實知識
Inside-Out: Hidden Factual Knowledge in LLMs

Mar 19

ByZorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpector, Jonathan Herzig, Roi Reichart

本研究提出了一個框架，用於評估大型語言模型（LLMs）在其參數中編碼的事實知識是否多於它們在輸出中所表達的內容。雖然一些研究暗示了這種可能性，但尚未有研究明確界定或證實這一現象。我們首先提出了一個知識的正式定義，將其量化為對於給定問題，正確答案在正確-錯誤答案對中被排名更高的比例。這引出了外部知識和內部知識的概念，取決於用於評分個別答案候選者的信息來源：無論是模型可觀察到的詞元級概率，還是其中間計算結果。當內部知識超過外部知識時，便產生了隱藏知識。隨後，我們通過一個案例研究，在閉卷問答設置中將此框架應用於三個流行的開源權重LLMs。我們的結果表明：（1）LLMs在內部編碼的事實知識始終多於它們在外部表達的內容，平均差距達40%。（2）令人驚訝的是，某些知識隱藏得如此之深，以至於模型在內部完美知曉一個答案，卻在進行大規模重複採樣（1,000次答案生成）時，一次也未能生成該答案。這揭示了LLMs生成能力的根本限制，（3）這對通過在閉卷問答中重複答案採樣來擴展測試時計算資源的實際應用構成了約束：由於某些答案實際上從未被採樣到，儘管如果它們被採樣到，我們保證會將其排名第一，但顯著的性能提升仍然無法實現。

強化學習在小型語言模型中的推理應用：有效方法與無效策略
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Mar 20

ByQuy-Anh Dang, Chris Ngo

提升大型語言模型（LLMs）的推理能力通常依賴於龐大的計算資源和廣泛的數據集，這在資源受限的環境中限制了其可及性。本研究探討了強化學習（RL）在改善小型LLMs推理能力方面的潛力，重點關注一個擁有15億參數的模型——DeepSeek-R1-Distill-Qwen-1.5B，在嚴格限制下：使用4張NVIDIA A40 GPU（每張48GB顯存）在24小時內完成訓練。我們採用了群組相對策略優化（GRPO）算法，並精心挑選了一個緊湊且高質量的數學推理數據集，進行了三項實驗以探索模型的行為和性能。結果顯示，推理能力迅速提升——例如，AMC23的準確率從63%上升至80%，AIME24達到46.7%，超越了o1-preview——僅使用了7,000個樣本和42美元的訓練成本，相比基準模型的數千美元開支顯著降低。然而，隨著訓練時間的延長，出現了優化不穩定性和長度限制等挑戰。這些發現凸顯了基於RL的微調對於小型LLMs的有效性，提供了一種成本效益高的替代方案，相較於大規模方法。我們將代碼和數據集作為開源資源發布，提供了對權衡的深入見解，並為在資源有限環境中構建可擴展、具備推理能力的LLMs奠定了基礎。所有資源均可通過https://github.com/knoveleng/open-rs獲取。

Cosmos-Reason1：從物理常識到具身推理
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning

Mar 18

ByNVIDIA, Alisson Azzolini, Hannah Brandon, Prithvijit Chattopadhyay, Huayu Chen, Jinju Chu, Yin Cui, Jenna Diamond, Yifan Ding, Francesco Ferroni, Rama Govindaraju, Jinwei Gu, Siddharth Gururani, Imad El Hanafi, Zekun Hao, Jacob Huffman, Jingyi Jin, Brendan Johnson, Rizwan Khan, George Kurian, Elena Lantz, Nayeon Lee, Zhaoshuo Li, Xuan Li, Tsung-Yi Lin, Yen-Chen Lin, Ming-Yu Liu, Andrew Mathau, Yun Ni, Lindsey Pavao, Wei Ping, David W. Romero, Misha Smelyanskiy, Shuran Song, Lyne Tchapmi, Andrew Z. Wang, Boxin Wang, Haoxiang Wang, Fangyin Wei, Jiashu Xu, Yao Xu, Xiaodong Yang, Zhuolin Yang, Xiaohui Zeng, Zhe Zhang

物理AI系統需要感知、理解並在物理世界中執行複雜的行動。本文中，我們介紹了Cosmos-Reason1模型，該模型能夠理解物理世界，並通過長鏈思維推理過程以自然語言生成適當的具身決策（例如，下一步行動）。我們首先定義了物理AI推理的關鍵能力，重點關注物理常識和具身推理。為了表示物理常識，我們使用了一個分層本體，捕捉關於空間、時間和物理的基本知識。對於具身推理，我們依賴於一個二維本體，該本體能夠泛化到不同的物理具身形式。基於這些能力，我們開發了兩個多模態大型語言模型，Cosmos-Reason1-8B和Cosmos-Reason1-56B。我們在四個階段中整理數據並訓練我們的模型：視覺預訓練、通用監督微調（SFT）、物理AI SFT以及作為後訓練的物理AI強化學習（RL）。為了評估我們的模型，我們根據我們的本體構建了全面的物理常識和具身推理基準。評估結果顯示，物理AI SFT和強化學習帶來了顯著的改進。為了促進物理AI的發展，我們將在NVIDIA開放模型許可下，於https://github.com/nvidia-cosmos/cosmos-reason1提供我們的代碼和預訓練模型。

多智能體大型語言模型系統為何失敗？
Why Do Multi-Agent LLM Systems Fail?

Mar 17

ByMert Cemri, Melissa Z. Pan, Shuyi Yang, Lakshya A. Agrawal, Bhavya Chopra, Rishabh Tiwari, Kurt Keutzer, Aditya Parameswaran, Dan Klein, Kannan Ramchandran, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica

儘管多智能體系統（MAS）日益受到熱捧，其中多個大型語言模型（LLM）智能體協作完成任務，但與單智能體框架相比，其在流行基準測試中的性能提升仍然微乎其微。這一差距凸顯了分析阻礙MAS有效性挑戰的必要性。在本文中，我們首次對MAS挑戰進行了全面研究。我們分析了五種流行的MAS框架，涵蓋超過150項任務，並邀請了六位專家級人類註釋員參與。我們識別出14種獨特的故障模式，並提出了一個適用於各種MAS框架的綜合分類法。該分類法通過每項研究中三位專家註釋員的共識迭代形成，Cohen's Kappa得分達到0.88。這些細粒度的故障模式被組織成三類：(i) 規格與系統設計故障，(ii) 智能體間對齊失準，以及(iii) 任務驗證與終止。為了支持可擴展的評估，我們將MASFT與LLM-as-a-Judge相結合。我們還探討了是否能夠通過提出兩種干預措施輕鬆預防已識別的故障：改進智能體角色的規格和增強協調策略。我們的研究結果表明，已識別的故障需要更複雜的解決方案，這為未來研究指明了一條清晰的路徑。我們開源了我們的數據集和LLM註釋器。

釋放向量集擴散模型以實現快速形狀生成
Unleashing Vecset Diffusion Model for Fast Shape Generation

Mar 20

ByZeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Fuyun Wang, Huiwen Shi, Xianghui Yang, Qinxiang Lin, Jinwei Huang, Yuhong Liu, Jie Jiang, Chunchao Guo, Xiangyu Yue

三維形狀生成技術隨著所謂「原生」三維擴散模型的發展而蓬勃興起，尤其是通過Vecset擴散模型（VDM）的應用。儘管近期的進展在生成高分辨率三維形狀方面展現了令人鼓舞的成果，VDM在高速生成方面仍面臨挑戰。這些挑戰不僅源於加速擴散採樣的困難，還包括VDM中VAE解碼的難題，這些領域在先前的研究中尚未得到充分探索。為應對這些挑戰，我們提出了FlashVDM，這是一個系統性框架，旨在加速VDM中的VAE和DiT。對於DiT，FlashVDM實現了僅需5步推理即可完成靈活的擴散採樣，並保持相當的質量，這得益於我們新引入的漸進流蒸餾技術對一致性蒸餾的穩定化處理。對於VAE，我們配備了具備自適應KV選擇、分層體積解碼及高效網絡設計的閃電式vecset解碼器。通過利用vecset的局部性和體積中形狀表面的稀疏性，我們的解碼器大幅降低了浮點運算次數（FLOPs），從而最小化解碼的總體開銷。我們將FlashVDM應用於Hunyuan3D-2，得到了Hunyuan3D-2 Turbo。通過系統性評估，我們展示了該模型在快速三維生成方法中顯著超越現有技術，在保持與頂尖技術相當性能的同時，將重建和生成的推理時間分別縮短了超過45倍和32倍。代碼和模型可在https://github.com/Tencent/FlashVDM獲取。

JARVIS-VLA：訓練後的大規模視覺語言模型，以鍵盤和滑鼠玩視覺遊戲
JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

Mar 20

ByMuyao Li, Zihao Wang, Kaichen He, Xiaojian Ma, Yitao Liang

近期，开放世界环境中基于行动的决策引起了广泛关注。视觉语言行动（VLA）模型，通过大规模网络数据集预训练，在决策任务中展现出了潜力。然而，以往的研究主要集中在行动的后训练阶段，往往忽视了对基础模型本身的改进。为此，我们提出了一种新颖的方法——视觉语言后训练中的行动生成，该方法通过视觉和语言指导以自监督的方式精炼视觉语言模型（VLMs）。这一增强提升了模型在开放世界环境中的世界知识、视觉识别和空间定位能力。遵循上述后训练范式，我们获得了首个在《我的世界》中能够执行超过1000种不同原子任务（包括制作、冶炼、烹饪、采矿和击杀）的VLA模型，这些任务均能遵循人类指令。我们的实验表明，在非轨迹任务上进行后训练，相较于最佳代理基线，在多样化的原子任务集上实现了显著的40%性能提升。此外，我们证明了该方法超越了基于模仿学习的传统策略，在《我的世界》中达到了最先进的性能水平。为了促进进一步研究，我们已开源代码、模型及数据集。项目页面可访问：https://craftjarvis.github.io/JarvisVLA。

尺度感知的擴散模型蒸餾
Scale-wise Distillation of Diffusion Models

Mar 20

ByNikita Starodubcev, Denis Kuznedelev, Artem Babenko, Dmitry Baranchuk

我們提出了SwD，這是一個針對擴散模型（DMs）的尺度級蒸餾框架，它有效地利用了下一尺度預測的概念來實現基於擴散的少步生成器。具體而言，SwD的靈感來自於近期將擴散過程與隱式頻譜自回歸相聯繫的洞見。我們假設DMs可以在較低的數據分辨率下啟動生成過程，並在每個去噪步驟中逐步提升樣本的分辨率，而不會損失性能，同時顯著降低計算成本。SwD自然地將這一理念整合到基於分佈匹配的現有擴散蒸餾方法中。此外，我們通過引入一種新穎的補丁損失來豐富分佈匹配方法家族，該損失強制實現與目標分佈更細粒度的相似性。當應用於最先進的文本到圖像擴散模型時，SwD接近於兩個全分辨率步驟的推理時間，並在相同的計算預算下顯著優於同類方法，這得到了自動化指標和人類偏好研究的證實。

InfiniteYou：在保持身份特徵的同時實現靈活的照片重塑
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity

Mar 20

ByLiming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu

實現靈活且高保真度的身份保持圖像生成仍然是一項艱巨的挑戰，尤其是在使用如FLUX等先進的擴散變換器（DiTs）時。我們引入了InfiniteYou（InfU），這是最早利用DiTs來完成此任務的強大框架之一。InfU解決了現有方法中的一些重大問題，例如身份相似度不足、文本與圖像對齊不佳以及生成質量和美學效果低下。InfU的核心是InfuseNet，這是一個通過殘差連接將身份特徵注入DiT基礎模型的組件，從而增強身份相似度，同時保持生成能力。多階段訓練策略，包括使用合成的單人多樣本（SPMS）數據進行預訓練和有監督微調（SFT），進一步改善了文本與圖像的對齊，提升了圖像質量，並減少了臉部複製粘貼的問題。大量實驗表明，InfU達到了最先進的性能，超越了現有的基線方法。此外，InfU的即插即用設計確保了與各種現有方法的兼容性，為更廣泛的社區提供了寶貴的貢獻。

LHM：基於單張圖像的快速可動人體重建模型，秒級生成
LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

Mar 13

ByLingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo

從單一圖像重建可動畫的3D人體模型是一個具有挑戰性的問題，這主要源於在解耦幾何形狀、外觀和變形時存在的不確定性。近年來，3D人體重建的進展主要集中在靜態人體建模上，而依賴於合成3D掃描數據進行訓練的做法限制了其泛化能力。相比之下，基於優化的視頻方法雖然能達到更高的保真度，但需要受控的捕捉條件和計算密集型的精細化處理過程。受到大型重建模型在高效靜態重建方面新興應用的啟發，我們提出了LHM（大型可動畫人體重建模型），以在前饋過程中推斷出以3D高斯濺射表示的高保真化身。我們的模型利用多模態Transformer架構，通過注意力機制有效編碼人體位置特徵和圖像特徵，從而實現對服裝幾何和紋理的細緻保留。為了進一步提升面部身份保留和細節恢復效果，我們提出了一種頭部特徵金字塔編碼方案，用於聚合頭部區域的多尺度特徵。大量實驗表明，我們的LHM能在數秒內生成逼真的可動畫人體，無需對面部和手部進行後處理，在重建精度和泛化能力上均優於現有方法。

Fin-R1：一款通过强化学习实现金融推理的大型语言模型
Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning

Mar 20

ByZhaowei Liu, Xin Guo, Fangqi Lou, Lingfeng Zeng, Jinyi Niu, Zixuan Wang, Jiajie Xu, Weige Cai, Ziwei Yang, Xueqian Zhao, Chao Li, Sheng Xu, Dezhi Chen, Yun Chen, Zuo Bai, Liwen Zhang

推理型大型语言模型正在各个领域迅速发展。然而，它们在处理复杂金融任务方面的能力仍需深入探索。本文中，我们介绍了Fin-R1，一个专为金融领域设计的推理型大型语言模型。Fin-R1采用两阶段架构构建，利用基于DeepSeek-R1提炼和处理的金融推理数据集。通过监督微调（SFT）和强化学习（RL）训练，它在多种金融推理任务中展现了接近DeepSeek-R1的性能，参数规模为70亿。在我们的评估中，Fin-R1在FinQA和ConvFinQA任务上达到了同类LLM中的最先进水平（SOTA），并在其他任务中也超越了更大的模型。Fin-R1展示了强大的推理和决策能力，为金融领域遇到的各种问题提供了解决方案。我们的代码可在https://github.com/SUFE-AIFLM-Lab/Fin-R1获取。

DiffMoE：面向可擴展擴散變換器的動態令牌選擇
DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers

Mar 18

ByMinglei Shi, Ziyang Yuan, Haotian Yang, Xintao Wang, Mingwu Zheng, Xin Tao, Wenliang Zhao, Wenzhao Zheng, Jie Zhou, Jiwen Lu, Pengfei Wan, Di Zhang, Kun Gai

擴散模型在各種圖像生成任務中展現了卓越的成就，但其性能往往受限於對不同條件和噪聲水平下輸入的統一處理。為解決這一限制，我們提出了一種新穎的方法，該方法利用了擴散過程固有的異質性。我們的方法，DiffMoE，引入了一個批次級別的全局令牌池，使專家在訓練期間能夠訪問全局令牌分佈，從而促進專家的專業化行為。為了充分發揮擴散過程的潛力，DiffMoE整合了一個容量預測器，該預測器根據噪聲水平和樣本複雜度動態分配計算資源。通過全面評估，DiffMoE在ImageNet基準測試中實現了擴散模型中的最先進性能，顯著超越了具有3倍激活參數的密集架構以及現有的MoE方法，同時保持1倍的激活參數。我們方法的有效性不僅限於類條件生成，還延伸至更具挑戰性的任務，如文本到圖像生成，展示了其在不同擴散模型應用中的廣泛適用性。項目頁面：https://shiml20.github.io/DiffMoE/

SynCity：無需訓練的3D世界生成
SynCity: Training-Free Generation of 3D Worlds

Mar 20

ByPaul Engstler, Aleksandar Shtedritski, Iro Laina, Christian Rupprecht, Andrea Vedaldi

我們致力於解決從文本描述生成三維世界的挑戰。我們提出了SynCity，這是一種無需訓練和優化的方法，它結合了預訓練三維生成模型的幾何精確性和二維圖像生成器的藝術多樣性，以創建大規模、高質量的三維空間。儘管大多數三維生成模型以物體為中心，無法生成大規模世界，但我們展示了如何將三維和二維生成器結合起來，生成不斷擴展的場景。通過基於瓦片的方法，我們允許對場景的佈局和外觀進行細粒度控制。世界以瓦片為單位逐塊生成，每個新瓦片在其世界上下文中生成，然後與場景融合。SynCity生成引人入勝且沉浸式的場景，細節豐富且多樣性十足。

適用於視頻大型語言模型的即插即用1.x位鍵值快取量化技術
Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

Mar 20

ByKeda Tao, Haoxuan You, Yang Sui, Can Qin, Huan Wang

視訊大型語言模型（VideoLLMs）已展現出處理更長視訊輸入並實現複雜推理與分析的能力。然而，由於視訊幀產生的數千個視覺標記，鍵值（KV）快取會顯著增加記憶體需求，成為推理速度和記憶體使用的瓶頸。KV快取量化是解決此問題的廣泛應用方法。本文中，我們發現對VideoLLMs進行2位元KV量化幾乎不會影響模型性能，但更低位元的KV量化極限尚未被探討。為填補這一空白，我們提出了VidKV，一種即插即用的KV快取量化方法，將KV快取壓縮至低於2位元。具體而言，（1）對於鍵，我們在通道維度上提出了一種混合精度量化策略，對異常通道進行2位元量化，對正常通道則結合FFT進行1位元量化；（2）對於值，我們實施了1.58位元量化，同時選擇性過濾語義顯著的視覺標記以進行有針對性的保留，以在精度與模型性能之間取得更好的平衡。重要的是，我們的研究表明，VideoLLMs的值快取應以逐通道方式進行量化，而非先前LLMs的KV快取量化工作中提出的逐標記方式。實驗中，LLaVA-OV-7B和Qwen2.5-VL-7B在六個基準測試上的廣泛結果顯示，VidKV有效地將KV快取壓縮至1.5位元和1.58位元精度，與FP16版本相比幾乎沒有性能下降。

MathFusion：透過指令融合提升大型語言模型的數學問題解決能力
MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion

Mar 20

ByQizhi Pei, Lijun Wu, Zhuoshi Pan, Yu Li, Honglin Lin, Chenlin Ming, Xin Gao, Conghui He, Rui Yan

大型语言模型（LLMs）在数学推理方面展现了显著的进步。尽管数据增强有望提升数学问题解决能力，但当前方法主要局限于实例层面的修改——如重述或生成句法变体——这些方法未能捕捉并利用数学知识中固有的关系结构。受人类学习过程的启发，其中数学能力通过系统性地接触相互关联的概念而发展，我们引入了MathFusion，一个通过跨问题指令合成来增强数学推理的新框架。MathFusion通过三种融合策略实现这一目标：（1）顺序融合，将相关问题串联以建模解决方案的依赖关系；（2）并行融合，结合类似问题以强化概念理解；（3）条件融合，创建上下文感知的选择性问题以增强推理的灵活性。通过应用这些策略，我们生成了新数据集MathFusionQA，并在此基础上微调了模型（DeepSeekMath-7B、Mistral-7B、Llama3-8B）。实验结果表明，MathFusion在保持高数据效率的同时，显著提升了数学推理能力，在多样化的基准测试中准确率提高了18.0个百分点，而仅需45K额外的合成指令，相较于传统的单一指令方法实现了显著改进。我们的数据集、模型和代码已公开于https://github.com/QizhiPei/mathfusion。

MotionStreamer：基於擴散模型的自回歸生成框架在因果潛空間中的運動流式生成
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

Mar 19

ByLixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang

本文探讨了文本条件流式运动生成这一挑战，该任务要求我们基于可变长度的历史动作和输入的文本预测下一步的人体姿态。现有方法在实现流式运动生成方面存在困难，例如，扩散模型受限于预定义的运动长度，而基于GPT的方法则因离散化的非因果标记化而面临响应延迟和误差累积问题。为解决这些问题，我们提出了MotionStreamer，一种新颖的框架，它将连续因果潜在空间整合到概率自回归模型中。连续潜在变量缓解了离散化造成的信息丢失，并有效减少了长期自回归生成过程中的误差累积。此外，通过在当前和历史运动潜在变量之间建立时间因果依赖关系，我们的模型充分利用可用信息，实现了精确的在线运动解码。实验表明，我们的方法优于现有方法，同时提供了更多应用，包括多轮生成、长期生成和动态运动组合。项目页面：https://zju3dv.github.io/MotionStreamer/

將圖像作為集合進行分詞
Tokenize Image as a Set

Mar 20

ByZigang Geng, Mengde Xu, Han Hu, Shuyang Gu

本文提出了一種基於集合的標記化與分佈建模的全新圖像生成範式。與傳統方法將圖像序列化為固定位置的潛在代碼並採用統一壓縮率不同，我們引入了一種無序的標記集合表示法，根據區域語義複雜度動態分配編碼容量。這種TokenSet增強了全局上下文聚合，並提高了對局部擾動的魯棒性。為解決建模離散集合的關鍵挑戰，我們設計了一種雙重轉換機制，將集合雙射轉換為具有求和約束的固定長度整數序列。此外，我們提出了固定和離散擴散框架——這是首個同時處理離散值、固定序列長度和求和不變性的框架，實現了有效的集合分佈建模。實驗結果表明，我們的方法在語義感知表示和生成質量方面具有顯著優勢。我們在新型表示與建模策略上的創新，推動了視覺生成超越傳統的序列標記範式。我們的代碼和模型已公開於https://github.com/Gengzigang/TokenSet。

XAttention：基於對角線評分的塊稀疏注意力機制
XAttention: Block Sparse Attention with Antidiagonal Scoring

Mar 20

ByRuyi Xu, Guangxuan Xiao, Haofeng Huang, Junxian Guo, Song Han

長上下文Transformer模型（LCTMs）在實際應用中至關重要，但由於注意力機制的二次方計算複雜度，其計算成本高昂。塊稀疏注意力通過將計算集中在關鍵區域來緩解這一問題，然而現有方法在平衡準確性和效率方面存在困難，原因在於塊重要性測量的高成本。本文介紹了XAttention，這是一個即插即用的框架，利用稀疏注意力顯著加速了Transformer模型中的長上下文推理。XAttention的關鍵創新在於發現注意力矩陣中反對角線值（即從左下到右上）的總和為塊重要性提供了強大的代理。這使得能夠精確識別並剪枝非必要塊，從而實現高稀疏性和顯著加速的推理。在包括語言領域的RULER和LongBench、視頻理解的VideoMME以及視頻生成的VBench在內的嚴苛長上下文基準測試中，XAttention在保持與全注意力相當的準確性的同時，帶來了顯著的計算增益。我們展示了注意力計算高達13.5倍的加速。這些結果證明了XAttention在解鎖塊稀疏注意力實際潛力方面的能力，為LCTMs在實際應用中的可擴展和高效部署鋪平了道路。代碼可在https://github.com/mit-han-lab/x-attention獲取。

M3：三維空間多模態記憶
M3: 3D-Spatial MultiModal Memory

Mar 20

ByXueyan Zou, Yuchen Song, Ri-Zhao Qiu, Xuanbin Peng, Jianglong Ye, Sifei Liu, Xiaolong Wang

我們提出了三維空間多模態記憶系統（M3），這是一個專為通過視頻源保留中等規模靜態場景信息而設計的多模態記憶系統，用於視覺感知。通過將三維高斯潑濺技術與基礎模型相結合，M3構建了一個能夠跨粒度渲染特徵表示的多模態記憶系統，涵蓋了廣泛的知識領域。在我們的探索中，我們發現了先前關於特徵潑濺工作的兩個關鍵挑戰：（1）存儲每個高斯基元的高維特徵時的計算限制，以及（2）蒸餾特徵與基礎模型特徵之間的錯位或信息丟失。為了解決這些挑戰，我們提出了M3，其關鍵組件包括主場景組件和高斯記憶注意力機制，從而實現高效的訓練和推理。為了驗證M3，我們對特徵相似性和下游任務進行了全面的定量評估，並通過定性可視化來突出高斯記憶注意力機制的像素軌跡。我們的方法涵蓋了多種基礎模型，包括視覺-語言模型（VLM）、感知模型以及大型多模態和語言模型（LMM/LLM）。此外，為了展示其現實世界的適用性，我們在四足機器人上部署了M3的特徵場於室內場景中。值得注意的是，我們聲稱M3是首個解決三維特徵蒸餾中核心壓縮挑戰的工作。

CaKE：電路感知編輯實現可泛化的知識學習器
CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners

Mar 20

ByYunzhi Yao, Jizhan Fang, Jia-Chen Gu, Ningyu Zhang, Shumin Deng, Huajun Chen, Nanyun Peng

知識編輯（Knowledge Editing, KE）使得我們能夠修改大型語言模型（LLMs）中過時或錯誤的資訊。雖然現有的KE方法可以更新孤立的事實，但這些方法在將更新推廣到依賴於修改後知識的多跳推理任務時卻面臨困難。通過分析推理迴路——LLMs用於基於知識推理的神經路徑，我們觀察到當前層局部化的KE方法，如MEMIT和WISE，這些方法僅編輯單個或少數模型層，難以有效地將更新後的資訊整合到這些推理路徑中。為了解決這一限制，我們提出了CaKE（Circuit-aware Knowledge Editing），這是一種新穎的方法，能夠更有效地將更新後的知識整合到LLMs中。CaKE利用基於迴路分析策略性策劃的數據，迫使模型利用修改後的知識，激勵模型為新整合的知識開發適當的推理迴路。實驗結果顯示，CaKE在相關推理任務中能夠更準確和一致地使用更新後的知識，與現有的KE方法相比，在MQuAKE數據集上的多跳推理準確率平均提高了20%。我們在https://github.com/zjunlp/CaKE上發布了代碼和數據。

1000+ FPS 4D高斯潑濺用於動態場景渲染
1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering

Mar 20

ByYuheng Yuan, Qiuhong Shen, Xingyi Yang, Xinchao Wang

4D高斯溅射（4DGS）作为重建动态场景的方法，近期获得了广泛关注。尽管其重建质量卓越，但4DGS通常需要大量存储空间，且渲染速度较慢。在本研究中，我们深入探讨了这些问题，并识别出两个关键的时间冗余来源。（Q1）短寿命高斯：4DGS使用大量时间跨度较短的高斯来表示场景动态，导致高斯数量过多。（Q2）非活跃高斯：在渲染时，每帧仅有一小部分高斯参与贡献。尽管如此，所有高斯在光栅化过程中均被处理，造成了冗余的计算开销。针对这些冗余，我们提出了4DGS-1K，它能在现代GPU上以超过1000 FPS的速度运行。对于Q1，我们引入了时空变化评分这一新的剪枝标准，有效去除短寿命高斯，同时鼓励4DGS使用时间跨度更长的高斯来捕捉场景动态。对于Q2，我们存储了连续帧中活跃高斯的掩码，显著减少了渲染中的冗余计算。与原始4DGS相比，我们的方法在复杂动态场景上实现了存储空间减少41倍、光栅化速度提升9倍的效果，同时保持了相当的视觉质量。详情请访问我们的项目页面：https://4DGS-1K.github.io。

專家競賽：一種靈活的路由策略，用於擴展基於專家混合的擴散變換器
Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts

Mar 20

ByYike Yuan, Ziyu Wang, Zihao Huang, Defa Zhu, Xun Zhou, Jingyi Yu, Qiyang Min

擴散模型已成為視覺生成領域的主流框架。在此基礎上，混合專家（MoE）方法的整合顯示出提升模型可擴展性和性能的潛力。本文提出Race-DiT，一種新穎的MoE模型，用於擴散變壓器，並配備了靈活的路由策略——專家競賽。通過讓標記和專家共同競爭並選出最佳候選者，該模型學會動態地將專家分配給關鍵標記。此外，我們提出逐層正則化以解決淺層學習中的挑戰，並引入路由器相似性損失以防止模式崩潰，從而確保更好的專家利用率。在ImageNet上的大量實驗驗證了我們方法的有效性，展示了顯著的性能提升，同時具有良好的擴展特性。

CLS-RL：基於規則的強化學習圖像分類
CLS-RL: Image Classification with Rule-Based Reinforcement Learning

Mar 20

ByMing Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang

分類是機器學習中的核心任務。近期研究表明，儘管多模態大型語言模型（MLLMs）在圖像分類上初始表現不佳，但通過適量的數據進行微調，其性能可顯著提升，甚至可與當前最先進（SOTA）的分類模型相媲美。然而，獲取大規模標註數據成本高昂。本文探討了少樣本MLLM分類微調。我們發現，監督式微調（SFT）會導致嚴重的過擬合問題，甚至可能使性能低於零樣本方法。為應對這一挑戰，受基於規則的強化學習近期成功的啟發，我們提出了CLS-RL，它利用可驗證的信號作為獎勵來微調MLLMs。我們發現，在多數數據集上，CLS-RL優於SFT，且在基礎到新類及少樣本學習設定下，平均準確率顯著更高。此外，我們觀察到CLS-RL存在“免費午餐”現象；當模型在特定數據集上微調後，其在其他分佈和類名不同的數據集上的性能也可能超越零樣本模型，這表明基於強化學習的方法有效教會了模型分類的基本原理。最後，受近期推理時思考研究的啟發，我們重新審視了微調過程中的“思考過程”——這是基於強化學習方法的關鍵環節，特別是在視覺分類的背景下。我們質疑此類任務在微調期間是否需要廣泛的思考過程，提出這可能反而會損害性能。基於此前提，我們引入了No-Thinking-CLS-RL方法，該方法通過設置等值準確率獎勵，在訓練過程中最小化思考過程。我們的研究結果表明，No-Thinking-CLS-RL方法在遠少於CLS-RL的微調時間內，實現了更優的域內性能和泛化能力。

超分辨率適配，輕鬆實現
Ultra-Resolution Adaptation with Ease

Mar 20

ByRuonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang

文本到圖像擴散模型近年來取得了顯著進展。然而，訓練用於高分辨率圖像生成的模型仍然具有挑戰性，尤其是在訓練數據和計算資源有限的情況下。本文從數據和參數效率這兩個關鍵角度探討了這一實際問題，並提出了一套稱為URAE的超分辨率適應關鍵指南。在數據效率方面，我們從理論和實踐上證明，由某些教師模型生成的合成數據能顯著促進訓練收斂。在參數效率方面，我們發現，當無法獲取合成數據時，調整權重矩陣的次要組件比廣泛使用的低秩適配器表現更優，在保持效率的同時提供了顯著的性能提升。此外，對於利用指導蒸餾的模型，如FLUX，我們展示了在適應期間禁用無分類器指導（即將指導尺度設置為1）對於獲得滿意性能至關重要。大量實驗驗證，URAE僅需3K樣本和2K迭代，就能在2K生成性能上與FLUX1.1 [Pro] Ultra等最先進的閉源模型相媲美，同時為4K分辨率生成設定了新的基準。代碼可於此處獲取：https://github.com/Huage001/URAE。

Sonata：可靠點雲表徵的自監督學習
Sonata: Self-Supervised Learning of Reliable Point Representations

Mar 20

ByXiaoyang Wu, Daniel DeTone, Duncan Frost, Tianwei Shen, Chris Xie, Nan Yang, Jakob Engel, Richard Newcombe, Hengshuang Zhao, Julian Straub

在本篇論文中，我們探討是否存在一種可靠的自監督點雲模型，能夠透過簡單的線性探測應用於多樣的三維任務，即便在數據有限且計算資源最少的情況下。我們發現，現有的三維自監督學習方法在通過線性探測評估表示質量時表現欠佳。我們假設這是由於我們所稱的「幾何捷徑」所致，這導致表示塌陷為低層次的空間特徵。這一挑戰是三維領域特有的，源於點雲數據的稀疏性。我們通過兩種關鍵策略來應對這一問題：遮蔽空間信息以及增強對輸入特徵的依賴，最終通過自蒸餾構建了一個包含14萬個點雲的Sonata模型。Sonata既簡單直觀，其學習到的表示又強健可靠：零樣本可視化展示了語義分組，以及通過最近鄰關係展現的強大空間推理能力。Sonata展現了卓越的參數和數據效率，在ScanNet上的線性探測準確率提升了三倍（從21.8%增至72.5%），並且僅使用1%的數據就幾乎使性能翻倍，相較於先前的方法。全面微調更進一步提升了在三維室內外感知任務上的最新技術水平。

MagicMotion：基於密集至稀疏軌跡引導的可控視頻生成
MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

Mar 20

ByQuanhao Li, Zhen Xing, Rui Wang, Hui Zhang, Qi Dai, Zuxuan Wu

近期，視頻生成技術的進步顯著提升了視覺品質與時間連貫性。在此基礎上，軌跡可控的視頻生成技術應運而生，它通過明確定義的空間路徑實現了對物體運動的精確控制。然而，現有方法在處理複雜物體運動及多物體運動控制時仍顯不足，導致軌跡跟隨不精確、物體一致性差以及視覺品質受損。此外，這些方法僅支持單一格式的軌跡控制，限制了其在多樣化場景中的應用。更為關鍵的是，目前尚無專門針對軌跡可控視頻生成公開的數據集或基準測試，這阻礙了模型的穩健訓練與系統化評估。為應對這些挑戰，我們推出了MagicMotion，這是一種新穎的圖像到視頻生成框架，它通過從密集到稀疏的三層條件——遮罩、邊界框和稀疏框——來實現軌跡控制。給定輸入圖像及軌跡，MagicMotion能夠無縫地沿著定義的軌跡動畫化物體，同時保持物體的一致性和視覺品質。此外，我們還推出了MagicData，這是一個大規模的軌跡控制視頻數據集，並配備了自動化的註釋與過濾流程。同時，我們引入了MagicBench，這是一個全面的基準測試，用於評估不同數量物體下的視頻品質與軌跡控制精度。大量實驗證明，MagicMotion在多項指標上均優於先前的方法。我們的項目頁面已公開，網址為https://quanhaol.github.io/magicmotion-site。

BigO(Bench) —— 大型語言模型能否生成具有可控時間與空間複雜度的程式碼？
BigO(Bench) -- Can LLMs Generate Code with Controlled Time and Space Complexity?

Mar 19

ByPierre Chambon, Baptiste Roziere, Benoit Sagot, Gabriel Synnaeve

我們推出BigO(Bench)，這是一個新穎的編碼基準測試，旨在評估生成式語言模型在理解和生成具有特定時間和空間複雜度代碼方面的能力。該基準測試填補了當前評估中的空白，這些評估往往忽視了模型理解和生成受計算複雜度約束的代碼的能力。BigO(Bench)包含工具，可從性能分析測量中推斷任何Python函數的算法複雜度，包括人類或LLM生成的解決方案。BigO(Bench)還包含一組3,105個編碼問題和1,190,250個來自編程競賽的解決方案，這些解決方案都標註了從複雜度框架推斷出的（合成）時間和空間複雜度標籤，以及針對大量輸入規模的相應運行時間和內存佔用值。我們展示了在此基準測試上評估多個最先進語言模型的結果，突出了它們在處理複雜度要求方面的優勢和不足。特別是，基於token空間推理的模型在代碼生成方面無與倫比，但在複雜度理解方面卻不然，這暗示它們可能無法很好地泛化到訓練時未給予獎勵的任務。

NuiScene：探索無界戶外場景的高效生成
NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

Mar 20

ByHan-Hung Lee, Qinghong Han, Angel X. Chang

本文探討了生成廣闊戶外場景的任務，範圍從城堡到高樓大廈。與以往主要關注的室內場景生成不同，戶外場景生成面臨獨特的挑戰，包括場景高度的巨大變化以及需要一種能夠快速生成大型景觀的方法。為此，我們提出了一種高效的方法，將場景塊編碼為均勻的向量集，相比於先前方法中使用的空間結構潛在變量，提供了更好的壓縮和性能。此外，我們訓練了一個顯式的外繪模型，用於無限制生成，這相比於基於重採樣的修補方案提高了連貫性，同時通過消除額外的擴散步驟加快了生成速度。為了促進這項任務，我們策劃了NuiScene43，這是一個小而高質量的場景集，經過預處理以進行聯合訓練。值得注意的是，當在不同風格的場景上進行訓練時，我們的模型能夠在同一場景中融合不同的環境，例如鄉村房屋和城市摩天大樓，這凸顯了我們策劃過程在利用異質場景進行聯合訓練方面的潛力。

零到一至A：利用視頻擴散技術從單張圖像生成可動畫頭像的零樣本方法
Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

Mar 20

ByZhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng

可動態頭像生成通常需要大量數據進行訓練。為降低數據需求，一個自然的解決方案是利用現有的無數據靜態頭像生成方法，例如使用預訓練擴散模型與分數蒸餾採樣（SDS），這些方法能將頭像與擴散模型生成的偽真值輸出對齊。然而，直接從視頻擴散中蒸餾4D頭像往往會因生成視頻中的空間和時間不一致性而導致過於平滑的結果。為解決這一問題，我們提出了Zero-1-to-A，這是一種利用視頻擴散模型合成空間和時間一致性數據集以重建4D頭像的穩健方法。具體而言，Zero-1-to-A以漸進方式迭代構建視頻數據集並優化可動態頭像，確保頭像質量在整個學習過程中平滑且一致地提升。這一漸進學習包含兩個階段：（1）空間一致性學習固定表情並從正面到側面視圖進行學習，（2）時間一致性學習固定視圖並從放鬆到誇張的表情進行學習，以簡單到複雜的方式生成4D頭像。大量實驗表明，與現有的基於擴散的方法相比，Zero-1-to-A在保真度、動畫質量和渲染速度上均有提升，為逼真頭像創建提供了解決方案。代碼公開於：https://github.com/ZhenglinZhou/Zero-1-to-A。

智能體在數千款3D電子遊戲中進行對抗
Agents Play Thousands of 3D Video Games

Mar 17

ByZhongwen Xu, Xianliang Wang, Siyi Li, Tao Yu, Liang Wang, Qiang Fu, Wei Yang

我們提出了PORTAL，這是一個新穎的框架，旨在開發能夠通過語言引導策略生成來玩數千款3D視頻遊戲的人工智慧代理。通過將決策問題轉化為語言建模任務，我們的方法利用大型語言模型（LLMs）生成以領域特定語言（DSL）表示的行為樹。這種方法消除了傳統強化學習方法所帶來的計算負擔，同時保留了戰略深度和快速適應性。我們的框架引入了一種混合策略結構，將基於規則的節點與神經網絡組件相結合，實現了高層次的戰略推理和精確的低層次控制。一個包含定量遊戲指標和視覺語言模型分析的雙重反饋機制，促進了在戰術和戰略層面上的迭代策略改進。由此產生的策略可以即時部署，易於人類理解，並且能夠在多樣化的遊戲環境中進行泛化。實驗結果展示了PORTAL在數千款第一人稱射擊遊戲（FPS）中的有效性，與傳統方法相比，在開發效率、策略泛化和行為多樣性方面均有顯著提升。PORTAL代表了遊戲AI開發的重大進步，為創建能夠在數千款商業視頻遊戲中以最小開發開銷運行的複雜代理提供了實用解決方案。有關3D視頻遊戲的實驗結果，請訪問https://zhongwen.one/projects/portal 查看最佳效果。

SALT：基於奇異值適應的低秩變換
SALT: Singular Value Adaptation with Low-Rank Transformation

Mar 20

ByAbdelrahman Elsayed, Sarim Hashmi, Mohammed Elseiagy, Hu Wang, Mohammad Yaqub, Ibrahim Almakky

醫學影像分割的複雜性要求模型能夠專門捕捉細緻的領域特徵。大型基礎模型提供了顯著的靈活性，但微調這些模型的成本仍然是一個重大障礙。參數高效微調（PEFT）方法，如低秩適應（LoRA），通過低秩矩陣高效更新模型權重，但在選擇的秩不足以捕捉領域特定細微差異時，可能會出現欠擬合問題。相反，基於全秩奇異值分解（SVD）的方法通過修改所有奇異值提供全面的更新，但它們通常缺乏靈活性，並且在不同數據集上表現不一。我們提出了SALT（奇異值適應與低秩轉換），該方法選擇性地使用可訓練的縮放和偏移參數來適應最具影響力的奇異值，同時對剩餘子空間進行低秩更新作為補充。這種混合方法結合了LoRA和SVD的優勢，實現了有效的適應，而無需依賴增加模型規模或深度。在5個具有挑戰性的醫學數據集上進行評估，樣本量從少至20到1000不等，SALT僅使用3.9%的可訓練參數，在Dice係數上比最先進的PEFT（LoRA和SVD）高出2%至5%，即使在低資源環境下也展現出強大的適應能力。SALT的代碼可在以下網址獲取：https://github.com/BioMedIA-MBZUAI/SALT。

大型視覺語言模型在回答問題時關注何處？
Where do Large Vision-Language Models Look at when Answering Questions?

Mar 18

ByXiaoying Xing, Chia-Wen Kuo, Li Fuxin, Yulei Niu, Fan Chen, Ming Li, Ying Wu, Longyin Wen, Sijie Zhu

大型视觉语言模型（LVLMs）在视觉语言理解与推理任务中展现出了令人瞩目的性能。然而，其视觉理解行为仍待深入探究。一个根本性问题浮现：LVLMs在多大程度上依赖于视觉输入，以及哪些图像区域对其响应有所贡献？由于LVLMs复杂的视觉架构（例如，多重编码器与多分辨率处理）及可变长度输出，解读其自由形式的生成过程并非易事。本文中，我们扩展了现有的热图可视化方法（如iGOS++），以支持LVLMs在开放式视觉问答中的应用。我们提出了一种方法，用于筛选出反映生成答案与输入图像相关性的视觉相关标记。此外，我们在设计上需要视觉信息来回答的基准测试上，对当前最先进的LVLMs进行了全面分析。我们的发现为理解LVLM行为提供了多项洞见，包括关注区域与答案正确性之间的关系、不同架构间视觉注意力的差异，以及LLM规模对视觉理解的影响。代码与数据已公开于https://github.com/bytedance/LVLM_Interpretation。

透過粗到細的標記預測提升自回歸圖像生成效能
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction

Mar 20

ByZiyao Guo, Kaipeng Zhang, Michael Qizhe Shieh

自迴歸模型通過借鑑語言建模中的序列預測技術，在圖像生成領域展現了顯著的成功。然而，將這些方法應用於圖像需要通過向量量化方法（如VQ-VAE）對連續的像素數據進行離散化處理。為緩解VQ-VAE中存在的量化誤差，近期研究傾向於使用更大的碼本。然而，這將相應地擴大詞彙量，使自迴歸建模任務變得更加複雜。本文旨在探索一種既能享受大碼本帶來的好處，又不增加自迴歸建模難度的方法。通過實證研究，我們發現具有相似碼字表示的標記對最終生成的圖像產生相似的效果，這揭示了大型碼本中存在顯著的冗餘性。基於這一洞察，我們提出從粗到細（CTF）預測標記的策略，通過為相似標記分配相同的粗粒度標籤來實現。我們的框架包含兩個階段：（1）一個自迴歸模型，依次預測序列中每個標記的粗粒度標籤；（2）一個輔助模型，在給定粗粒度標籤的條件下，同時預測所有標記的細粒度標籤。在ImageNet上的實驗表明，我們的方法表現優異，與基線相比，Inception Score平均提升了59分。值得注意的是，儘管增加了一個推理步驟，我們的方法仍實現了更快的採樣速度。

Uni-3DAR：通過對壓縮空間標記的自回歸實現統一的3D生成與理解
Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens

Mar 20

ByShuqi Lu, Haowei Lin, Lin Yao, Zhifeng Gao, Xiaohong Ji, Weinan E, Linfeng Zhang, Guolin Ke

近期，大型语言模型及其多模态扩展的进展展示了通过自回归下一词预测统一生成与理解的有效性。然而，尽管三维结构生成与理解（{3D GU}）在科学人工智能中扮演着关键角色，这些任务大多独立发展，自回归方法仍未被充分探索。为填补这一空白，我们提出了Uni-3DAR，一个通过自回归预测无缝整合{3D GU}任务的统一框架。Uni-3DAR的核心在于采用了一种新颖的分层标记化方法，利用八叉树压缩三维空间，充分利用三维结构固有的稀疏性。随后，它应用了额外的标记化以捕捉微观三维结构中的精细细节，如原子类型和精确空间坐标等关键属性。我们进一步提出了两项优化以提升效率和效果。首先是两级子树压缩策略，可将八叉树标记序列减少多达8倍。其次是为动态变化标记位置量身定制的掩码下一词预测机制，显著提升了模型性能。通过结合这些策略，Uni-3DAR成功地将多样化的{3D GU}任务统一于单一自回归框架内。在包括分子、蛋白质、聚合物和晶体在内的多种微观{3D GU}任务上的广泛实验验证了其有效性和通用性。值得注意的是，Uni-3DAR大幅超越了之前最先进的扩散模型，实现了高达256%的相对改进，同时推理速度提升了多达21.8倍。代码已公开于https://github.com/dptech-corp/Uni-3DAR。

邁向統一潛在空間的三維分子潛在擴散建模
Towards Unified Latent Space for 3D Molecular Latent Diffusion Modeling

Mar 19

ByYanchen Luo, Zhiyuan Liu, Yi Zhao, Sihang Li, Kenji Kawaguchi, Tat-Seng Chua, Xiang Wang

三維分子生成對於藥物發現和材料科學至關重要，這要求模型能夠處理複雜的多模態數據，包括原子類型、化學鍵和三維座標。一個關鍵挑戰在於整合這些不同形狀的模態，同時保持三維座標的SE(3)等變性。為實現這一目標，現有方法通常為不變性和等變性模態維護獨立的潛在空間，這降低了訓練和採樣的效率。在本研究中，我們提出了統一變分自編碼器用於三維分子潛在擴散建模（UAE-3D），這是一種多模態VAE，它將三維分子壓縮到統一潛在空間中的潛在序列，同時保持接近零的重建誤差。這種統一的潛在空間消除了在進行潛在擴散建模時處理多模態性和等變性的複雜性。我們通過採用擴散變壓器——一種沒有任何分子歸納偏置的通用擴散模型——來進行潛在生成，展示了這一點。在GEOM-Drugs和QM9數據集上的大量實驗表明，我們的方法在從頭生成和條件生成三維分子方面顯著建立了新的基準，實現了領先的效率與質量。

UVE：多模态大语言模型能否成为AI生成视频的统一评估者？
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?

Mar 13

ByYuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang

隨著視頻生成模型（VGMs）的快速發展，開發可靠且全面的自動評估指標來衡量AI生成視頻（AIGVs）變得至關重要。現有的方法要麼使用針對其他任務優化的現成模型，要麼依賴人類評估數據來訓練專用評估器。這些方法僅限於特定的評估維度，難以隨著對更細粒度和更全面評估需求的增長而擴展。為解決這一問題，本研究探討了利用多模態大語言模型（MLLMs）作為AIGVs統一評估器的可行性，充分利用其強大的視覺感知和語言理解能力。為了評估自動指標在統一AIGV評估中的表現，我們引入了一個名為UVE-Bench的基準測試。UVE-Bench收集了由最先進的VGMs生成的視頻，並提供了涵蓋15個評估維度的成對人類偏好註釋。基於UVE-Bench，我們對16個MLLMs進行了廣泛評估。實驗結果表明，雖然先進的MLLMs（如Qwen2VL-72B和InternVL2.5-78B）仍落後於人類評估者，但它們在統一AIGV評估中展現出顯著的潛力，大幅超越了現有的專用評估方法。此外，我們深入分析了影響MLLM驅動評估器性能的關鍵設計選擇，為未來AIGV評估研究提供了寶貴的見解。代碼可在https://github.com/bytedance/UVE獲取。

MagicID：融合偏好優化的身份一致性與動態保持影片定制技術
MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization

Mar 16

ByHengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai

視頻身份定製旨在基於用戶的參考圖像，生成高保真度且保持身份一致性的視頻，同時展現出顯著的動態效果。然而，現有方法面臨兩個主要挑戰：視頻長度增加時的身份退化，以及訓練過程中動態效果的減弱，這主要歸因於它們依賴於傳統的靜態圖像自重建訓練。為解決這些問題，我們引入了MagicID，這是一個新穎的框架，旨在直接促進生成符合用戶偏好且身份一致、動態豐富的視頻。具體而言，我們提出構建具有明確身份和動態獎勵的成對偏好視頻數據，用於偏好學習，而非固守傳統的自重建方法。為應對定製偏好數據的限制，我們引入了一種混合採樣策略。該策略首先通過利用從參考圖像衍生的靜態視頻來優先保持身份，然後使用基於前沿的採樣方法提升生成視頻中的動態運動質量。通過利用這些混合偏好對，我們優化模型以對齊定製偏好對之間的獎勵差異。大量實驗表明，MagicID成功實現了身份一致性和自然動態效果，在多項指標上超越了現有方法。

視覺-語言模態平衡：觀察梯度，修復視覺缺陷以緩解主導模態偏差
See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias

Mar 18

ByJuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim

視覺-語言（VL）模型在多種任務中展現了強大的性能。然而，這些模型通常依賴於特定模態進行預測，導致了「主導模態偏差」。這種偏差顯著影響了模型性能，尤其是在某一模態受損時。在本研究中，我們分析了主導模態偏差下的模型行為，並從理論上證明了未對齊的梯度或梯度幅度的差異阻礙了損失的平衡收斂。基於這些發現，我們提出了一個新框架——BalGrad，以減輕主導模態偏差。我們的方法包括模態間梯度重加權、根據各模態的貢獻調整KL散度的梯度，以及模態間梯度投影以非衝突的方式對齊任務方向。在UPMC Food-101、Hateful Memes和MM-IMDb數據集上的實驗證實，BalGrad在進行預測時有效緩解了對特定模態的過度依賴。

VideoRFSplat：基於靈活姿態與多視角聯合建模的場景級文本到3D高斯濺射生成
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling

Mar 20

ByHyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim

我們提出了VideoRFSplat，這是一個直接從文本生成3D的模型，它利用視頻生成模型來為無界真實場景生成逼真的3D高斯潑濺（3DGS）。為了生成多樣化的相機姿態和無界的真實場景空間範圍，同時確保對任意文本提示的泛化能力，先前的方法通過微調2D生成模型來聯合建模相機姿態和多視角圖像。然而，這些方法在將2D生成模型擴展到聯合建模時，由於模態差距而存在不穩定性，這需要額外的模型來穩定訓練和推理。在本工作中，我們提出了一種架構和採樣策略，在微調視頻生成模型時聯合建模多視角圖像和相機姿態。我們的核心思想是一個雙流架構，該架構通過通信塊將專用的姿態生成模型附加到預訓練的視頻生成模型旁邊，通過獨立的流生成多視角圖像和相機姿態。這種設計減少了姿態和圖像模態之間的干擾。此外，我們提出了一種異步採樣策略，該策略使相機姿態的去噪速度比多視角圖像更快，從而允許快速去噪的姿態來條件化多視角生成，減少相互模糊性並增強跨模態一致性。在多個大規模真實世界數據集（RealEstate10K、MVImgNet、DL3DV-10K、ACID）上訓練後，VideoRFSplat在不需要通過分數蒸餾採樣進行後處理精煉的情況下，超越了現有的依賴於此類精煉的文本到3D直接生成方法，取得了優異的結果。

讓您的訓練更具靈活性：邁向部署高效的視頻模型
Make Your Training Flexible: Towards Deployment-Efficient Video Models

Mar 18

ByChenting Wang, Kunchang Li, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang

主流的视频训练方法主要基于从预设时空网格中采样的固定数量标记进行操作，由于视频固有的冗余性，导致在准确性与计算量之间的权衡上表现欠佳。此外，这些方法缺乏对下游任务不同计算预算的适应性，阻碍了最具竞争力模型在现实场景中的应用。为此，我们提出了一种新的测试设置——标记优化（Token Optimization），旨在跨预算最大化输入信息，通过从更合适采样的视频中进行标记选择，优化了输入标记的有限集合。为此，我们引入了一种新颖的增强工具，称为Flux。通过使采样网格灵活化并利用标记选择，它能够轻松融入大多数流行的视频训练框架，以几乎无额外成本提升模型的鲁棒性。我们将Flux应用于大规模视频预训练中，由此产生的FluxViT在标准成本下，在广泛任务中确立了新的最先进成果。值得注意的是，仅使用1/4的标记，它仍能通过标记优化匹配先前最先进模型的性能，节省了近90%的资源。所有模型和数据均可在https://github.com/OpenGVLab/FluxViT获取。

為何個人化基於深度學習的程式碼補全工具至關重要
Why Personalizing Deep Learning-Based Code Completion Tools Matters

Mar 18

ByAlessandro Giagnorio, Alberto Martin-Lopez, Gabriele Bavota

基於深度學習（DL）的代碼補全工具已通過實現高級代碼生成，徹底改變了軟件開發。這些工具利用在大量代碼庫上訓練的模型，捕捉通用的編碼模式。然而，針對特定組織或開發者進行微調以提升其在這些主體上的性能的影響，仍未被探索。在本研究中，我們通過提供堅實的實證證據來填補這一空白，具體回答了這一問題。更詳細地說，我們考慮了來自兩個組織（Apache 和 Spring）的 136 名開發者、兩種模型架構（T5 和 Code Llama）以及三種模型規模（6000 萬、7.5 億和 70 億可訓練參數）。T5 模型（6000 萬、7.5 億）在超過 2000 個開源項目上進行了預訓練和微調，排除了主體組織的數據，並與在組織和開發者特定數據集上微調的版本進行了比較。對於 Code Llama 模型（70 億），我們比較了在線公開的已預訓練模型與通過參數高效微調在組織和開發者特定數據集上微調的同一模型的性能。我們的結果表明，無論是組織特定還是開發者特定的額外微調，都能提升預測能力，其中前者表現尤為突出。這一發現普遍適用於（i）兩個主體組織（即 Apache 和 Spring）以及（ii）規模完全不同的模型（從 6000 萬到 70 億可訓練參數）。最後，我們展示了在組織特定數據集上微調的 DL 模型，能夠達到與未經微調的預訓練代碼模型相同的補全性能，而後者的規模是前者的 10 倍，從而節省了部署和推理成本（例如，所需 GPU 更小）。

以言繪圖：通過基準與對齊學習提升細緻圖像描述
Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

Mar 10

ByQinghao Ye, Xianhan Zeng, Fu Li, Chunyuan Li, Haoqi Fan

圖像描述長期以來一直是視覺理解中的關鍵任務，隨著視覺語言模型（VLMs）的最新進展，生成詳細圖像描述的能力得到了顯著提升。然而，由於過時的評估指標和粗糙的註釋，詳細圖像描述的評估仍然未被充分探索。在本文中，我們引入了DeCapBench以及一個新穎的指標DCScore，專門為詳細描述任務設計。DCScore通過將回應解構為最小的自足單元，稱為原始信息單元，並對其進行個別評估，來評估幻覺和細粒度的全面性。我們的評估顯示，DCScore比其他基於規則或基於模型的指標更接近人類判斷。同時，DeCapBench在描述性任務上與VLM競技場結果呈現高度相關性，超越了現有的視覺語言模型基準。此外，我們提出了一種自動細粒度反饋收集方法FeedQuill，基於我們的高級指標進行偏好優化，展示了在自動生成的偏好數據上具有強大的泛化能力。在多個VLM上的廣泛實驗表明，我們的方法不僅顯著減少了幻覺，還提升了在各種基準上的性能，實現了卓越的細節描述性能，並超越了GPT-4o。

GASP：統一幾何與語義自監督預訓練於自動駕駛之應用
GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving

Mar 19

ByWilliam Ljungbergh, Adam Lilja, Adam Tonderski. Arvid Laveno Ling, Carl Lindström, Willem Verbeke, Junsheng Fu, Christoffer Petersson, Lars Hammarstrand, Michael Felsberg

基於下一個詞預測的自監督預訓練方法，使大型語言模型能夠捕捉文本的底層結構，並在規模化應用時，在多種任務上取得了前所未有的性能表現。同樣地，自動駕駛產生了大量的時空數據，這暗示了利用規模來學習環境及其隨時間演變的幾何和語義結構的可能性。沿著這一方向，我們提出了一種幾何和語義自監督預訓練方法——GASP，該方法通過在時空中任意查詢的未來點預測以下內容來學習統一表示：(1) 一般佔用情況，捕捉三維場景的演變結構；(2) 自我佔用情況，模擬自車在環境中的行駛路徑；(3) 從視覺基礎模型中蒸餾出的高層次特徵。通過建模幾何和語義的四維佔用場而非原始傳感器測量數據，模型學習到了環境及其隨時間演變的結構化、可泛化的表示。我們在多個自動駕駛基準上驗證了GASP，展示了在語義佔用預測、在線地圖構建和自我軌跡預測方面的顯著改進。我們的結果表明，連續的四維幾何和語義佔用預測為自動駕駛提供了一種可擴展且有效的預訓練範式。有關代碼和更多可視化內容，請參見\href{https://research.zenseact.com/publications/gasp/}。

TikZero：零樣本文本引導的圖形程序合成
TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

Mar 14

ByJonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Paolo Ponzetto

隨著生成式人工智慧的興起，從文字描述合成圖形成為一項引人注目的應用。然而，要實現高幾何精度和可編輯性，需要將圖形表示為如TikZ等圖形程式語言，而對齊的訓練數據（即帶有文字描述的圖形程式）仍然稀缺。與此同時，大量未對齊的圖形程式和帶有文字描述的點陣圖像更易獲得。我們通過提出TikZero來協調這些不同的數據源，它利用圖像表示作為中介橋樑，將圖形程式生成與文本理解解耦。這使得能夠獨立訓練圖形程式和帶有文字描述的圖像，並在推理過程中實現零樣本文本引導的圖形程式合成。我們展示了我們的方法顯著優於僅能使用對齊圖形程式的基線模型。此外，當利用對齊圖形程式作為補充訓練信號時，TikZero的性能與甚至超過了包括GPT-4o在內的更大規模模型，包括商業系統。我們的代碼、數據集和部分模型已公開提供。

欺騙性幽默：一個用於連接虛構聲明與幽默內容的合成多語言基準數據集
Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content

Mar 20

BySai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya

本文介紹了欺騙性幽默數據集（Deceptive Humor Dataset, DHD），這是一個用於研究源自虛構聲明和錯誤信息的幽默的新穎資源。在錯誤信息泛濫的時代，理解幽默如何與欺騙交織至關重要。DHD包含由虛構敘事生成的幽默評論，這些敘事利用ChatGPT-4o模型融入了虛構聲明和操縱信息。每個實例都標註了諷刺等級，從1級（微妙諷刺）到3級（高度諷刺），並分為五個不同的幽默類別：黑色幽默、反諷、社會評論、文字遊戲和荒誕。該數據集涵蓋多種語言，包括英語、泰盧固語、印地語、卡納達語、泰米爾語及其混合變體（Te-En、Hi-En、Ka-En、Ta-En），使其成為一個有價值的多語言基準。通過引入DHD，我們為分析欺騙性語境中的幽默建立了結構化基礎，為探索幽默不僅如何與錯誤信息互動，還如何影響其感知和傳播的新研究方向鋪平了道路。我們為所提出的數據集建立了強基準，為未來研究提供了基準和推進欺騙性幽默檢測模型的基礎。

AIMI：利用未來知識與個人化於稀疏事件預測中提升治療依從性
AIMI: Leveraging Future Knowledge and Personalization in Sparse Event Forecasting for Treatment Adherence

Mar 20

ByAbdullah Mamun, Diane J. Cook, Hassan Ghasemzadeh

對於慢性病患者而言，遵循醫囑治療至關重要，以避免高昂或不良的健康後果。對於某些患者群體，強化生活方式干預是提升藥物依從性的關鍵。準確預測治療依從性能夠為開發按需干預工具開闢道路，從而提供及時且個性化的支持。隨著智能手機和可穿戴設備的日益普及，開發和部署智能活動監測系統變得前所未有的便捷。然而，基於可穿戴傳感器的有效治療依從性預測系統仍未廣泛普及。我們通過提出「基於機器智能的依從性預測與干預系統」（Adherence Forecasting and Intervention with Machine Intelligence, AIMI）來彌補這一空白。AIMI是一個知識引導的依從性預測系統，它利用智能手機傳感器和既往用藥歷史來估計患者忘記服用處方藥物的可能性。我們對27名每日服藥以管理心血管疾病的參與者進行了用戶研究。我們設計並開發了基於CNN和LSTM的預測模型，結合多種輸入特徵，發現LSTM模型能夠以0.932的準確率和0.936的F1分數預測藥物依從性。此外，通過一系列涉及卷積和循環神經網絡架構的消融研究，我們證明了利用已知的未來信息和個性化訓練能夠提升藥物依從性預測的準確性。代碼可於以下網址獲取：https://github.com/ab9mamun/AIMI。

AI研究論文每日精選

每日精選AI研究論文及翻譯

大型語言模型基於代理的評估綜述
Survey on Evaluation of LLM-based Agents

Mar 20

ByAsaf Yehudai, Lilach Eden, Alan Li, Guy Uziel, Yilun Zhao, Roy Bar-Haim, Arman Cohan, Michal Shmueli-Scheuer

一步殘差遷移擴散：基於蒸餾的圖像超分辨率方法
One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

Mar 17

ByDaniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin

停止過度思考：大型語言模型高效推理研究綜述
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

Mar 20

ByYang Sui, Yu-Neng Chuang, Guanchu Wang, Jiamu Zhang, Tianyi Zhang, Jiayi Yuan, Hongyi Liu, Andrew Wen, Shaochen, Zhong, Hanjie Chen, Xia Hu

由內而外：大型語言模型中的隱含事實知識
Inside-Out: Hidden Factual Knowledge in LLMs

Mar 19

ByZorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpector, Jonathan Herzig, Roi Reichart

強化學習在小型語言模型中的推理應用：有效方法與無效策略
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Mar 20

ByQuy-Anh Dang, Chris Ngo

Cosmos-Reason1：從物理常識到具身推理
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning

Mar 18

多智能體大型語言模型系統為何失敗？
Why Do Multi-Agent LLM Systems Fail?

Mar 17

釋放向量集擴散模型以實現快速形狀生成
Unleashing Vecset Diffusion Model for Fast Shape Generation

Mar 20

ByZeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Fuyun Wang, Huiwen Shi, Xianghui Yang, Qinxiang Lin, Jinwei Huang, Yuhong Liu, Jie Jiang, Chunchao Guo, Xiangyu Yue

JARVIS-VLA：訓練後的大規模視覺語言模型，以鍵盤和滑鼠玩視覺遊戲
JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

Mar 20

ByMuyao Li, Zihao Wang, Kaichen He, Xiaojian Ma, Yitao Liang

尺度感知的擴散模型蒸餾
Scale-wise Distillation of Diffusion Models

Mar 20

ByNikita Starodubcev, Denis Kuznedelev, Artem Babenko, Dmitry Baranchuk

InfiniteYou：在保持身份特徵的同時實現靈活的照片重塑
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity

Mar 20

ByLiming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu

LHM：基於單張圖像的快速可動人體重建模型，秒級生成
LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

Mar 13

ByLingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo

Fin-R1：一款通过强化学习实现金融推理的大型语言模型
Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning

Mar 20

ByZhaowei Liu, Xin Guo, Fangqi Lou, Lingfeng Zeng, Jinyi Niu, Zixuan Wang, Jiajie Xu, Weige Cai, Ziwei Yang, Xueqian Zhao, Chao Li, Sheng Xu, Dezhi Chen, Yun Chen, Zuo Bai, Liwen Zhang

DiffMoE：面向可擴展擴散變換器的動態令牌選擇
DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers

Mar 18

ByMinglei Shi, Ziyang Yuan, Haotian Yang, Xintao Wang, Mingwu Zheng, Xin Tao, Wenliang Zhao, Wenzhao Zheng, Jie Zhou, Jiwen Lu, Pengfei Wan, Di Zhang, Kun Gai

SynCity：無需訓練的3D世界生成
SynCity: Training-Free Generation of 3D Worlds

Mar 20

ByPaul Engstler, Aleksandar Shtedritski, Iro Laina, Christian Rupprecht, Andrea Vedaldi

適用於視頻大型語言模型的即插即用1.x位鍵值快取量化技術
Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

Mar 20

ByKeda Tao, Haoxuan You, Yang Sui, Can Qin, Huan Wang

MathFusion：透過指令融合提升大型語言模型的數學問題解決能力
MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion

Mar 20

ByQizhi Pei, Lijun Wu, Zhuoshi Pan, Yu Li, Honglin Lin, Chenlin Ming, Xin Gao, Conghui He, Rui Yan

MotionStreamer：基於擴散模型的自回歸生成框架在因果潛空間中的運動流式生成
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

Mar 19

ByLixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang

將圖像作為集合進行分詞
Tokenize Image as a Set

Mar 20

ByZigang Geng, Mengde Xu, Han Hu, Shuyang Gu

XAttention：基於對角線評分的塊稀疏注意力機制
XAttention: Block Sparse Attention with Antidiagonal Scoring

Mar 20

ByRuyi Xu, Guangxuan Xiao, Haofeng Huang, Junxian Guo, Song Han

M3：三維空間多模態記憶
M3: 3D-Spatial MultiModal Memory

Mar 20

ByXueyan Zou, Yuchen Song, Ri-Zhao Qiu, Xuanbin Peng, Jianglong Ye, Sifei Liu, Xiaolong Wang

CaKE：電路感知編輯實現可泛化的知識學習器
CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners

Mar 20

ByYunzhi Yao, Jizhan Fang, Jia-Chen Gu, Ningyu Zhang, Shumin Deng, Huajun Chen, Nanyun Peng

1000+ FPS 4D高斯潑濺用於動態場景渲染
1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering

Mar 20

ByYuheng Yuan, Qiuhong Shen, Xingyi Yang, Xinchao Wang

專家競賽：一種靈活的路由策略，用於擴展基於專家混合的擴散變換器
Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts

Mar 20

ByYike Yuan, Ziyu Wang, Zihao Huang, Defa Zhu, Xun Zhou, Jingyi Yu, Qiyang Min

CLS-RL：基於規則的強化學習圖像分類
CLS-RL: Image Classification with Rule-Based Reinforcement Learning

Mar 20

ByMing Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang

超分辨率適配，輕鬆實現
Ultra-Resolution Adaptation with Ease

Mar 20

ByRuonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang

Sonata：可靠點雲表徵的自監督學習
Sonata: Self-Supervised Learning of Reliable Point Representations

Mar 20

ByXiaoyang Wu, Daniel DeTone, Duncan Frost, Tianwei Shen, Chris Xie, Nan Yang, Jakob Engel, Richard Newcombe, Hengshuang Zhao, Julian Straub

MagicMotion：基於密集至稀疏軌跡引導的可控視頻生成
MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

Mar 20

ByQuanhao Li, Zhen Xing, Rui Wang, Hui Zhang, Qi Dai, Zuxuan Wu

BigO(Bench) —— 大型語言模型能否生成具有可控時間與空間複雜度的程式碼？
BigO(Bench) -- Can LLMs Generate Code with Controlled Time and Space Complexity?

Mar 19

ByPierre Chambon, Baptiste Roziere, Benoit Sagot, Gabriel Synnaeve

NuiScene：探索無界戶外場景的高效生成
NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

Mar 20

ByHan-Hung Lee, Qinghong Han, Angel X. Chang

零到一至A：利用視頻擴散技術從單張圖像生成可動畫頭像的零樣本方法
Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

Mar 20

ByZhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng

智能體在數千款3D電子遊戲中進行對抗
Agents Play Thousands of 3D Video Games

Mar 17

ByZhongwen Xu, Xianliang Wang, Siyi Li, Tao Yu, Liang Wang, Qiang Fu, Wei Yang

SALT：基於奇異值適應的低秩變換
SALT: Singular Value Adaptation with Low-Rank Transformation

Mar 20

ByAbdelrahman Elsayed, Sarim Hashmi, Mohammed Elseiagy, Hu Wang, Mohammad Yaqub, Ibrahim Almakky

大型視覺語言模型在回答問題時關注何處？
Where do Large Vision-Language Models Look at when Answering Questions?

Mar 18

ByXiaoying Xing, Chia-Wen Kuo, Li Fuxin, Yulei Niu, Fan Chen, Ming Li, Ying Wu, Longyin Wen, Sijie Zhu

透過粗到細的標記預測提升自回歸圖像生成效能
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction

Mar 20

ByZiyao Guo, Kaipeng Zhang, Michael Qizhe Shieh

Uni-3DAR：通過對壓縮空間標記的自回歸實現統一的3D生成與理解
Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens

Mar 20

ByShuqi Lu, Haowei Lin, Lin Yao, Zhifeng Gao, Xiaohong Ji, Weinan E, Linfeng Zhang, Guolin Ke

邁向統一潛在空間的三維分子潛在擴散建模
Towards Unified Latent Space for 3D Molecular Latent Diffusion Modeling

Mar 19

ByYanchen Luo, Zhiyuan Liu, Yi Zhao, Sihang Li, Kenji Kawaguchi, Tat-Seng Chua, Xiang Wang

UVE：多模态大语言模型能否成为AI生成视频的统一评估者？
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?

Mar 13

ByYuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang

MagicID：融合偏好優化的身份一致性與動態保持影片定制技術
MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization

Mar 16

ByHengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai

視覺-語言模態平衡：觀察梯度，修復視覺缺陷以緩解主導模態偏差
See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias

Mar 18

ByJuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim

VideoRFSplat：基於靈活姿態與多視角聯合建模的場景級文本到3D高斯濺射生成
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling

Mar 20

ByHyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim

欺騙性幽默：一個用於連接虛構聲明與幽默內容的合成多語言基準數據集
Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content

Mar 20

BySai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya

AIMI：利用未來知識與個人化於稀疏事件預測中提升治療依從性
AIMI: Leveraging Future Knowledge and Personalization in Sparse Event Forecasting for Treatment Adherence

Mar 20

ByAbdullah Mamun, Diane J. Cook, Hassan Ghasemzadeh