AI研究論文每日精選

每日精選AI研究論文及翻譯

MergeVQ：基於解耦令牌合併與量化的視覺生成與表示統一框架
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Apr 1

BySiyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei

基於向量量化（VQ）的掩碼圖像建模（MIM）在自監督預訓練與圖像生成領域均取得了顯著成就。然而，現有方法大多難以在共享潛在空間中權衡生成質量與表示學習及效率之間的關係。為突破此範式的限制，我們提出了MergeVQ，該方法將令牌合併技術融入基於VQ的生成模型中，旨在統一架構下彌合圖像生成與視覺表示學習之間的鴻溝。在預訓練階段，MergeVQ通過編碼器自注意力模塊後的令牌合併模塊，將頂層語義與潛在空間解耦，以便進行後續的無查表量化（LFQ）及全局對齊，並在解碼器中通過交叉注意力恢復其細粒度細節以實現重建。針對第二階段的生成任務，我們引入了MergeAR，它執行KV緩存壓縮以實現高效的光柵順序預測。在ImageNet上的大量實驗驗證了MergeVQ作為自迴歸生成模型，在視覺表示學習與圖像生成任務中均展現出競爭力，同時保持了良好的令牌效率與推理速度。代碼及模型將發佈於https://apexgen-x.github.io/MergeVQ。

AnimeGamer：無限動畫人生模擬與下一遊戲狀態預測
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

Apr 1

ByJunhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan

近期圖像與視頻合成技術的進步，為生成式遊戲開闢了新的前景。其中一個特別引人入勝的應用，是將動畫電影中的角色轉化為可互動、可遊玩的實體。這使得玩家能夠以自己喜愛的角色身份，通過語言指令沉浸於動態的動畫世界中，進行生活模擬。此類遊戲被定義為無限遊戲，因為它們消除了預設的邊界和固定的遊戲規則，玩家可以通過開放式語言與遊戲世界互動，體驗不斷演變的故事情節和環境。最近，一種開創性的無限動畫生活模擬方法採用大型語言模型（LLMs）將多輪文本對話轉化為圖像生成的語言指令。然而，這種方法忽略了歷史視覺上下文，導致遊戲體驗不一致。此外，它僅生成靜態圖像，未能融入動態元素，無法提供引人入勝的遊戲體驗。在本研究中，我們提出了AnimeGamer，它基於多模態大型語言模型（MLLMs）生成每個遊戲狀態，包括描繪角色動作和角色狀態更新的動態動畫片段，如圖1所示。我們引入了新穎的動作感知多模態表示來表示動畫片段，這些表示可以通過視頻擴散模型解碼為高質量的視頻片段。通過將歷史動畫片段表示作為上下文並預測後續表示，AnimeGamer能夠生成具有上下文一致性和滿意動態的遊戲。使用自動指標和人類評估的廣泛評估表明，AnimeGamer在遊戲體驗的各個方面均優於現有方法。代碼和檢查點可在https://github.com/TencentARC/AnimeGamer獲取。

DreamActor-M1：基於混合引導的全方位、表現力強且穩健的人像動畫技術
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Apr 2

ByYuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu

儘管近期基於圖像的人體動畫方法已能實現逼真的身體和面部運動合成，但在細粒度整體可控性、多尺度適應性以及長期時間一致性方面仍存在關鍵差距，這導致其表現力和魯棒性較低。我們提出了一種基於擴散變換器（DiT）的框架——DreamActor-M1，並採用混合指導來克服這些限制。在運動指導方面，我們整合了隱式面部表徵、3D頭部球體和3D身體骨架的混合控制信號，實現了對面部表情和身體動作的穩健控制，同時生成富有表現力且保持身份特徵的動畫。在尺度適應方面，為應對從肖像到全身視圖的各種身體姿勢和圖像尺度，我們採用了使用不同分辨率和尺度數據的漸進式訓練策略。在外觀指導方面，我們將序列幀中的運動模式與互補的視覺參考相結合，確保在複雜運動期間對未見區域的長期時間一致性。實驗表明，我們的方法超越了現有最先進的工作，在肖像、上半身和全身生成方面提供了富有表現力的結果，並具有穩健的長期一致性。項目頁面：https://grisoon.github.io/DreamActor-M1/。

通過R1-Zero式訓練提升視覺空間推理能力
Improved Visual-Spatial Reasoning via R1-Zero-Like Training

Apr 1

ByZhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng

提升多模态大语言模型（MLLMs）的推理能力日益受到关注。作为在物理世界中运作的AI代理的基石，基于视频的视觉空间智能（VSI）成为MLLMs最为关键的推理能力之一。本研究首次深入探讨了通过类似R1-Zero的训练方法来增强MLLMs的视觉空间推理能力。技术上，我们首先发现中小型Qwen2-VL模型的视觉空间推理能力无法通过思维链（CoT）提示激活。随后，我们借鉴DeepSeek-R1-Zero的方法，采用精心策划的VSI-100k数据集，引入GRPO训练以提升视觉空间推理。在研究中，我们认识到即使在GRPO中保持KL惩罚（即使数值较小）也是必要的。仅用120 GPU小时，我们的vsGRPO-2B模型，基于Qwen2-VL-2B微调，便超越了基础模型12.1%，并超越了GPT-4o。此外，我们的vsGRPO-7B模型，基于Qwen2-VL-7B微调，其性能可与最佳开源模型LLaVA-NeXT-Video-72B相媲美。同时，我们将vsGRPO与监督微调和直接偏好优化基线进行比较，观察到显著的性能优势。代码和数据集即将公开。

理解R1-Zero式訓練：一個批判性視角
Understanding R1-Zero-Like Training: A Critical Perspective

Mar 26

ByZichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin

DeepSeek-R1-Zero 已證明，大規模的強化學習（RL）能夠直接提升大型語言模型（LLMs）的推理能力，而無需進行監督式微調。在本研究中，我們透過分析其兩個核心組件——基礎模型與強化學習，對 R1-Zero 類型的訓練進行了深入探討。我們研究了多種基礎模型，包括 DeepSeek-V3-Base，以理解預訓練特性如何影響強化學習的表現。我們的分析顯示，DeepSeek-V3-Base 已展現出「頓悟時刻」，而 Qwen2.5 基礎模型即便在沒有提示模板的情況下也展現出強大的推理能力，這暗示了潛在的預訓練偏差。此外，我們發現群組相對策略優化（GRPO）中存在一種優化偏差，這種偏差在訓練過程中會人為地增加回應長度（尤其是錯誤輸出）。為解決此問題，我們引入了 Dr. GRPO，這是一種無偏的優化方法，能在保持推理性能的同時提升詞元效率。基於這些洞察，我們提出了一種極簡的 R1-Zero 方案，該方案在 AIME 2024 上以 7B 基礎模型達到了 43.3% 的準確率，創下了新的技術巔峰。我們的程式碼已公開於 https://github.com/sail-sg/understand-r1-zero。

ScholarCopilot：訓練大型語言模型以實現精確引用的學術寫作
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Apr 1

ByYubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen

學術寫作既需要連貫的文本生成，又要求精確引用相關文獻。儘管近期的檢索增強生成（RAG）系統在通用文本生成的事實準確性上取得了顯著提升，但其在支持專業學術寫作方面的能力仍顯不足。本研究提出了ScholarCopilot，這是一個統一框架，旨在增強現有大型語言模型，以生成具有準確且上下文相關引用的專業學術文章。ScholarCopilot通過生成檢索標記[RET]來動態決定何時檢索學術參考文獻，並利用其表徵從數據庫中查找相關引用。檢索到的參考文獻被輸入模型以增強生成過程。我們在單一框架內聯合優化生成與引用任務，以提高效率。在arXiv的50萬篇論文上訓練後，我們的模型在評估數據集上達到了40.1%的Top-1檢索準確率，超越了如E5-Mistral-7B-Instruct（15.0%）和BM25（9.8%）等基線模型。在1000份學術寫作樣本的數據集上，ScholarCopilot在生成質量（涵蓋相關性、連貫性、學術嚴謹性、完整性和創新性）上獲得16.2/25分，超越了參數量多出10倍的模型如Qwen-2.5-72B-Instruct（15.8/25）。人體研究也證實了ScholarCopilot在引用召回率、寫作效率和整體用戶體驗上的卓越表現，驗證了我們方法的有效性。

VideoScene：一步生成3D場景的視頻擴散模型蒸餾技術
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

Apr 2

ByHanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan

從稀疏視圖中重建3D場景是一項具有挑戰性的任務，因其本質上是一個病態問題。傳統方法已開發出專門的解決方案（如幾何正則化或前饋確定性模型）來緩解這一問題。然而，當輸入視圖之間重疊極少且視覺信息不足時，這些方法仍會出現性能下降。幸運的是，最近的視頻生成模型在應對這一挑戰上展現出潛力，它們能夠生成具有合理3D結構的視頻片段。得益於大規模預訓練的視頻擴散模型，一些先驅研究開始探索視頻生成先驗的潛力，並從稀疏視圖中創建3D場景。儘管取得了顯著的改進，這些方法仍受限於推理速度慢和缺乏3D約束，導致效率低下以及重建結果與現實世界的幾何結構不符。本文中，我們提出了VideoScene，通過蒸餾視頻擴散模型以一步生成3D場景，旨在構建一個高效且有效的工具，彌合從視頻到3D的鴻溝。具體而言，我們設計了一種3D感知的跳躍流蒸餾策略，以跳過耗時的多餘信息，並訓練一個動態去噪策略網絡，在推理過程中自適應地確定最佳跳躍時間步。大量實驗表明，我們的VideoScene相比之前的視頻擴散模型，能夠更快且更優地生成3D場景，凸顯了其作為未來視頻到3D應用高效工具的潛力。項目頁面：https://hanyang-21.github.io/VideoScene

邁向基於視覺語言模型規劃的物理可信視頻生成
Towards Physically Plausible Video Generation via VLM Planning

Mar 30

ByXindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia

近年來，視頻擴散模型（VDMs）取得了顯著進展，能夠生成高度逼真的視頻，並因其作為世界模擬器的潛力而引起了社區的關注。然而，儘管其能力強大，VDMs 往往由於對物理學的固有理解不足而無法生成物理上合理的視頻，導致動態和事件序列錯誤。為了解決這一限制，我們提出了一種新穎的兩階段圖像到視頻生成框架，該框架明確地融入了物理學。在第一階段，我們採用視覺語言模型（VLM）作為粗粒度運動規劃器，結合思維鏈和物理感知推理來預測近似真實世界物理動態的粗略運動軌跡/變化，同時確保幀間一致性。在第二階段，我們使用預測的運動軌跡/變化來指導 VDM 的視頻生成。由於預測的運動軌跡/變化是粗略的，在推理過程中會添加噪聲，以賦予 VDM 生成更精細運動細節的自由度。大量實驗結果表明，我們的框架能夠生成物理上合理的運動，比較評估也凸顯了我們方法相對於現有方法的顯著優勢。更多視頻結果請訪問我們的項目頁面：https://madaoer.github.io/projects/physically_plausible_video_generation。

PaperBench：評估AI複製AI研究的能力
PaperBench: Evaluating AI's Ability to Replicate AI Research

Apr 2

ByGiulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan

我們推出了PaperBench，這是一個評估AI代理複製頂尖AI研究能力的基準測試。代理必須從零開始複製20篇ICML 2024的Spotlight和Oral論文，包括理解論文貢獻、開發代碼庫以及成功執行實驗。為了客觀評估，我們開發了評分標準，將每個複製任務層次化分解為具有明確評分標準的較小子任務。總計，PaperBench包含8,316個可單獨評分的任務。這些評分標準與每篇ICML論文的作者共同開發，以確保準確性和真實性。為了實現可擴展的評估，我們還開發了一個基於LLM的評判器，自動根據評分標準對複製嘗試進行評分，並通過創建一個專門的評判器基準來評估我們評判器的表現。我們在PaperBench上評估了多個前沿模型，發現表現最佳的測試代理——Claude 3.5 Sonnet（新版）配合開源框架——平均複製得分為21.0%。最後，我們招募了頂尖的機器學習博士生嘗試PaperBench的一部分，發現模型尚未超越人類基線。我們開源了我們的代碼，以促進未來在理解AI代理的AI工程能力方面的研究。

從視頻擴散模型中提取關節運動學
Articulated Kinematics Distillation from Video Diffusion Models

Apr 1

ByXuan Li, Qianli Ma, Tsung-Yi Lin, Yongxin Chen, Chenfanfu Jiang, Ming-Yu Liu, Donglai Xiang

我們提出了關節運動蒸餾（Articulated Kinematics Distillation, AKD）框架，該框架通過結合骨架動畫與現代生成模型的優勢，來生成高保真的角色動畫。AKD採用基於骨架的表示方法來處理綁定好的3D資產，通過專注於關節層級的控制，大幅減少了自由度（Degrees of Freedom, DoFs），從而實現了高效且一致的運動合成。借助預訓練的視頻擴散模型進行分數蒸餾採樣（Score Distillation Sampling, SDS），AKD在保持結構完整性的同時，蒸餾出複雜的關節運動，克服了4D神經變形場在保持形狀一致性方面所面臨的挑戰。此方法天然兼容基於物理的模擬，確保了物理上可信的交互。實驗表明，在文本到4D生成任務上，AKD相比現有工作展現出更優的3D一致性和運動質量。項目頁面：https://research.nvidia.com/labs/dir/akd/

ILLUME+：通过双重视觉标记化与扩散优化实现统一多模态大模型的明澈呈现
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

Apr 2

ByRunhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu

我們提出了ILLUME+，它利用雙重視覺標記化和擴散解碼器來提升深度語義理解和高保真圖像生成的能力。現有的統一模型在同時處理理解、生成和編輯這三項基本能力時面臨挑戰。像Chameleon和EMU3這樣的模型使用VQGAN進行圖像離散化，但由於缺乏深度語義交互，它們在視覺理解任務上落後於LLaVA等專業模型。為了解決這個問題，LaViT和ILLUME採用了語義編碼器進行標記化，但由於紋理保留不佳，它們在圖像編輯方面表現欠佳。同時，Janus系列解耦了輸入和輸出圖像的表示，限制了它們無縫處理交錯圖像-文本理解和生成的能力。相比之下，ILLUME+引入了一種統一的雙重視覺標記器DualViTok，它既保留了細粒度的紋理又對齊了文本語義，同時支持從粗到細的圖像表示策略，用於多模態理解和生成。此外，我們採用擴散模型作為圖像解碼器，以提升生成質量和實現高效的超分辨率。ILLUME+在統一的多模態語言模型（MLLM）中遵循連續輸入、離散輸出的方案，並採用漸進式訓練過程，支持視覺標記器、MLLM和擴散解碼器之間的動態分辨率。這種設計使得ILLUME+能夠在多樣化的任務中進行靈活且高效的上下文感知圖像編輯和生成。ILLUME+（3B）在多模態理解、生成和編輯基準測試中展現出與現有統一MLLM和專業模型競爭的性能。憑藉其強大的性能，ILLUME+為未來的多模態應用提供了一個可擴展且多功能的基礎。項目頁面：https://illume-unified-mllm.github.io/。

透過AI反饋的直接偏好優化，提升您的人類圖像生成模型
Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

May 30

BySanghyeon Na, Yonggyu Kim, Hyunjoon Lee

通過文本到圖像（T2I）方法生成高質量的人類圖像是一項重要且具有挑戰性的任務。與一般的圖像生成不同，人類圖像合成必須滿足與人體姿態、解剖結構以及與文本提示對齊相關的嚴格標準，這使得實現逼真效果尤為困難。基於擴散模型的T2I生成技術的最新進展顯示出潛力，但在滿足人類特定偏好方面仍存在挑戰。本文中，我們引入了一種專門針對人類圖像生成的新方法，利用直接偏好優化（DPO）。具體而言，我們提出了一種高效的方法，用於構建專門的DPO數據集，以訓練人類圖像生成模型，而無需昂貴的人類反饋。我們還提出了一種改進的損失函數，通過最小化偽影和提高圖像保真度來增強DPO訓練過程。我們的方法展示了其在生成人類圖像方面的多功能性和有效性，包括個性化的文本到圖像生成。通過全面的評估，我們表明我們的方法顯著推進了人類圖像生成的技術水平，在自然解剖結構、姿態和文本圖像對齊方面取得了優異的結果。

MegaTTS 3：基於稀疏對齊增強潛在擴散變換器的零樣本語音合成
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

Feb 26

ByZiyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao

儘管近期的零樣本文字轉語音（TTS）模型在語音品質和表現力上取得了顯著進步，主流系統仍面臨語音-文字對齊建模的相關問題：1）未採用顯式語音-文字對齊建模的模型在實際應用中對複雜句子的處理上表現出較低的魯棒性；2）基於預定義對齊的模型則受限於強制對齊的自然性約束。本文介紹了MegaTTS 3，這是一款TTS系統，其特色在於引入了一種創新性的稀疏對齊算法，該算法指導著潛在擴散變換器（DiT）。具體而言，我們為MegaTTS 3提供了稀疏對齊邊界，以在不限制搜索空間的前提下降低對齊難度，從而實現高自然度。此外，我們採用了一種多條件無分類器指導策略來調整口音強度，並採用了分段整流流技術以加速生成過程。實驗證明，MegaTTS 3在零樣本TTS語音品質上達到了業界領先水平，並支持對口音強度的高度靈活控制。值得注意的是，我們的系統僅需8次採樣步驟即可生成高品質的一分鐘語音。音頻樣本可在https://sditdemo.github.io/sditdemo/ 獲取。

保護視覺語言模型：減輕基於擾動攻擊中高斯噪聲的脆弱性
Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

Apr 2

ByJiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam

視覺語言模型（VLMs）通過整合視覺信息擴展了大型語言模型（LLMs）的能力，但在處理噪聲或損壞圖像時仍易受越獄攻擊。儘管現有的VLMs在訓練過程中採取了安全措施來減輕此類攻擊，但與噪聲增強視覺輸入相關的漏洞卻被忽視了。在本研究中，我們發現缺乏噪聲增強訓練導致了關鍵的安全漏洞：許多VLMs甚至對簡單的擾動（如高斯噪聲）也表現出脆弱性。為應對這一挑戰，我們提出了Robust-VLGuard，這是一個包含對齊/非對齊圖像-文本對的多模態安全數據集，結合噪聲增強微調，在保持VLM功能的同時降低了攻擊成功率。針對更強的基於優化的視覺擾動攻擊，我們提出了DiffPure-VLM，利用擴散模型將對抗性擾動轉化為類似高斯的噪聲，從而可由經過噪聲增強安全微調的VLMs進行防禦。實驗結果表明，擴散模型的分佈轉移特性與我們微調後的VLMs高度契合，顯著減輕了不同強度下的對抗性擾動。數據集和代碼可在https://github.com/JarvisUSTC/DiffPure-RobustVLM獲取。

DASH：視覺語言模型系統性幻覺的檢測與評估
DASH: Detection and Assessment of Systematic Hallucinations of VLMs

Mar 30

ByMaximilian Augustin, Yannic Neuhaus, Matthias Hein

視覺語言模型（VLMs）容易出現物體幻覺，即錯誤地指出圖像中存在某些物體。現有的基準測試使用相對較小的標註數據集來量化幻覺。然而，這種方法存在兩個問題：i) 不足以評估在開放世界環境中廣泛使用VLMs時產生的幻覺，ii) 無法有效檢測VLMs中的系統性錯誤。我們提出了DASH（Detection and Assessment of Systematic Hallucinations），這是一個自動化、大規模的流程，旨在識別開放世界環境中VLMs在真實世界圖像上的系統性幻覺。其中一個關鍵組件是DASH-OPT，用於基於圖像的檢索，我們通過優化「自然圖像流形」來生成誤導VLM的圖像。DASH的輸出包括一組真實且語義相似的圖像，這些圖像會導致VLM產生物體幻覺。我們將DASH應用於PaliGemma和兩個LLaVA-NeXT模型，涵蓋380個物體類別，總共發現了超過19k個包含950k張圖像的集群。我們研究了這些識別出的系統性幻覺在其他VLMs中的轉移性，並展示了使用DASH獲得的模型特定圖像對PaliGemma進行微調可以減輕物體幻覺。代碼和數據可在https://YanNeu.github.io/DASH獲取。

LSNet：見大識小，聚焦細微
LSNet: See Large, Focus Small

Mar 29

ByAo Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding

視覺網絡設計，包括卷積神經網絡和視覺變換器，已顯著推動了計算機視覺領域的發展。然而，它們複雜的計算為實際部署帶來了挑戰，特別是在實時應用中。為解決這一問題，研究人員探索了多種輕量級且高效的網絡設計。然而，現有的輕量級模型主要依賴自注意力機制和卷積進行令牌混合。這種依賴性在輕量級網絡的感知與聚合過程中帶來了效果和效率上的限制，阻礙了在有限計算預算下性能與效率之間的平衡。本文從高效人類視覺系統中固有的動態異尺度視覺能力中汲取靈感，提出了一種「見大聚焦小」的輕量級視覺網絡設計策略。我們引入了LS（大-小）卷積，它結合了大核感知與小核聚合，能夠高效捕捉廣泛的感知信息並實現對動態複雜視覺表示的精確特徵聚合，從而熟練處理視覺信息。基於LS卷積，我們提出了LSNet，一個新的輕量級模型家族。大量實驗表明，LSNet在多種視覺任務中相較於現有的輕量級網絡，實現了更優的性能與效率。代碼和模型可在https://github.com/jameslahm/lsnet獲取。

Quamba2：一個針對選擇性狀態空間模型的穩健且可擴展的訓練後量化框架
Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models

Mar 28

ByHung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu

狀態空間模型（SSMs）因其穩定的記憶體使用和高性能，正逐漸成為Transformer的有力替代方案。然而，由於其存儲需求和計算能力的要求，在雲端服務或資源有限的設備上擴展SSMs仍面臨挑戰。為解決這一問題，使用低比特寬數據格式對SSMs進行量化可以減小模型規模，並受益於硬體加速。由於SSMs容易受到量化誤差的影響，近期的研究集中在優化特定模型或比特寬，以在不犧牲性能的前提下提升效率。然而，不同的場景需要不同的比特寬配置，例如W4A8用於提升大批量解碼速度，而W4A16則用於增強單用戶短提示應用的生成速度。為此，我們提出了Quamba2，兼容W8A8、W4A8和W4A16，適用於Mamba1和Mamba2架構，滿足SSM在多種平台上部署的日益增長需求。基於SSMs的通道順序保持和激活持久性，我們提出了一種離線方法，通過對輸入x進行排序和聚類，以8比特量化線性遞歸的輸入，並結合對輸入依賴參數B和C的每狀態組量化。為了確保SSM輸出的計算不變性，我們根據聚類序列離線重新排列權重。實驗表明，Quamba2-8B在多種最先進的SSM量化方法中表現優異，在預填充和生成階段分別實現了1.3倍和3倍的加速，同時提供了4倍的記憶體減少，僅帶來1.6%的平均準確率下降。在MMLU上的評估展示了我們框架的通用性和魯棒性。代碼和量化模型將在以下網址發布：https://github.com/enyac-group/Quamba。

VerifiAgent：語言模型推理中的統一驗證代理
VerifiAgent: a Unified Verification Agent in Language Model Reasoning

Apr 1

ByJiuzhou Han, Wray Buntine, Ehsan Shareghi

大型語言模型展現出卓越的推理能力，但往往會產生不可靠或錯誤的回應。現有的驗證方法通常針對特定模型或受限於特定領域，需要大量計算資源，且缺乏跨多樣推理任務的可擴展性。為解決這些限制，我們提出了VerifiAgent，這是一個統一的驗證代理，整合了兩個層次的驗證：元驗證，用於評估模型回應的完整性和一致性；以及基於工具的適應性驗證，其中VerifiAgent根據推理類型（包括數學、邏輯或常識推理）自主選擇合適的驗證工具。這種適應性方法確保了在不同驗證場景下的效率和魯棒性。實驗結果顯示，VerifiAgent在所有推理任務中均優於基線驗證方法（如演繹驗證器、反向驗證器）。此外，它還能通過利用驗證結果的反饋進一步提升推理準確性。VerifiAgent也能有效應用於推理擴展，在數學推理領域，與現有的過程獎勵模型相比，能以更少的生成樣本和成本取得更好的結果。程式碼可在https://github.com/Jiuzhouh/VerifiAgent 取得。

預訓練大型語言模型中的自適應層跳躍
Adaptive Layer-skipping in Pre-trained LLMs

Mar 31

ByXuan Luo, Weizhi Wang, Xifeng Yan

多種層跳躍方法已被提出，用以加速大型語言模型（LLMs）中的詞元生成。然而，這些方法忽略了一個根本性問題：在生成不同詞元時，計算需求如何變化？在本研究中，我們引入了FlexiDepth，這是一種動態調整Transformer層數的文本生成方法。通過整合一個插件路由器和適配器，FlexiDepth能夠在不修改LLMs原始參數的情況下實現自適應的層跳躍。將FlexiDepth應用於Llama-3-8B模型，實現了32層中的8層跳躍，同時保持了100%的基準性能。FlexiDepth的實驗結果表明，LLMs中的計算需求根據詞元類型顯著變化。具體而言，生成重複詞元或固定短語所需的層數較少，而涉及計算或不確定性較高的詞元生成則需要更多層。有趣的是，這種自適應分配模式與人類直覺相符。為推動該領域的研究，我們開源了FlexiDepth及記錄其層分配模式的數據集，供未來探索使用。

目標感知的視頻擴散模型
Target-Aware Video Diffusion Models

Mar 24

ByTaeksoo Kim, Hanbyul Joo

我們提出了一種目標感知的視頻擴散模型，該模型從輸入圖像生成視頻，其中演員在執行指定動作時與特定目標進行互動。目標由分割掩碼定義，而期望的動作則通過文本提示描述。與現有的可控圖像到視頻擴散模型不同，這些模型通常依賴於密集的結構或運動線索來引導演員向目標移動，我們的目標感知模型僅需一個簡單的掩碼來指示目標，利用預訓練模型的泛化能力來生成合理的動作。這使得我們的方法特別適用於人-物交互（HOI）場景，在這些場景中提供精確的動作指導具有挑戰性，並且進一步使得視頻擴散模型能夠用於高級動作規劃，例如在機器人應用中。我們通過擴展基礎模型來構建目標感知模型，將目標掩碼作為額外輸入。為了強化目標感知，我們引入了一個特殊標記，該標記在文本提示中編碼目標的空間信息。然後，我們使用一種新穎的交叉注意力損失對模型進行微調，該損失將與此標記相關的交叉注意力圖與輸入目標掩碼對齊。為了進一步提高性能，我們選擇性地將此損失應用於語義最相關的變壓器塊和注意力區域。實驗結果表明，我們的目標感知模型在生成演員與指定目標準確互動的視頻方面優於現有解決方案。我們進一步展示了其在兩個下游應用中的有效性：視頻內容創作和零樣本3D HOI運動合成。

通過多模態表徵的跨模態對齊增強異常檢測能力
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations

Mar 24

ByJeonghyeon Kim, Sangheum Hwang

先前關於分佈外檢測（OoDD）的研究主要集中在單模態模型上。近年來，隨著大規模預訓練視覺-語言模型（如CLIP）的出現，利用此類多模態表徵並通過零樣本和提示學習策略的OoDD方法應運而生。然而，這些方法通常要麼凍結預訓練權重，要麼僅對其進行部分微調，這對於下游數據集可能並非最優選擇。本文強調，多模態微調（MMFT）能夠實現顯著的OoDD性能。儘管最近的一些工作展示了微調方法對OoDD的影響，但性能提升仍有巨大潛力。我們探討了簡單微調方法的侷限性，分析其未能充分利用預訓練知識的原因。我們的實證分析表明，這一問題可能源於分佈內（ID）嵌入中的模態間隔。為解決此問題，我們提出了一種訓練目標，通過規範化ID數據的圖像和文本嵌入之間的距離來增強跨模態對齊。這一調整有助於更好地利用預訓練的文本信息，通過在超球面表示空間中更緊密地對齊來自不同模態（即文本和圖像）的相似語義。我們從理論上證明，所提出的規範化對應於超球面上基於能量模型的最大似然估計。利用ImageNet-1k OoD基準數據集，我們展示了我們的方法與利用預訓練知識的後處理OoDD方法（如NegLabel）相結合，顯著優於現有方法，實現了最先進的OoDD性能並領先ID準確率。

醫療大型語言模型容易受到干擾
Medical large language models are easily distracted

Apr 1

ByKrithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann

大型語言模型（LLMs）具有變革醫學的潛力，但現實世界的臨床場景中充斥著可能影響其表現的無關信息。隨著輔助技術的興起，如環境聽寫（ambient dictation）——它能從即時患者互動中自動生成草稿筆記——這可能引入更多噪音，因此評估LLMs過濾相關數據的能力變得至關重要。為此，我們開發了MedDistractQA，這是一個利用USMLE風格問題嵌入模擬現實世界干擾的基準測試。我們的研究發現，干擾性陳述（如具有臨床意義的多義詞在非臨床語境中的使用，或對不相關健康狀況的提及）可使LLM的準確性降低高達17.9%。常見的改進模型性能的解決方案，如檢索增強生成（RAG）和醫學微調，並未改變這一效應，在某些情況下反而引入了自身的混淆因素，進一步降低了性能。我們的研究結果表明，LLMs天生缺乏區分相關與無關臨床信息所需的邏輯機制，這對其實際應用構成了挑戰。MedDistractQA及我們的研究結果強調了需要制定強有力的緩解策略，以增強LLMs對無關信息的抵抗力。

AI研究論文每日精選

每日精選AI研究論文及翻譯

MergeVQ：基於解耦令牌合併與量化的視覺生成與表示統一框架
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Apr 1

BySiyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei

AnimeGamer：無限動畫人生模擬與下一遊戲狀態預測
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

Apr 1

ByJunhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan

DreamActor-M1：基於混合引導的全方位、表現力強且穩健的人像動畫技術
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Apr 2

ByYuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu

通過R1-Zero式訓練提升視覺空間推理能力
Improved Visual-Spatial Reasoning via R1-Zero-Like Training

Apr 1

ByZhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng

理解R1-Zero式訓練：一個批判性視角
Understanding R1-Zero-Like Training: A Critical Perspective

Mar 26

ByZichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin

ScholarCopilot：訓練大型語言模型以實現精確引用的學術寫作
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Apr 1

ByYubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen

VideoScene：一步生成3D場景的視頻擴散模型蒸餾技術
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

Apr 2

ByHanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan

邁向基於視覺語言模型規劃的物理可信視頻生成
Towards Physically Plausible Video Generation via VLM Planning

Mar 30

ByXindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia

PaperBench：評估AI複製AI研究的能力
PaperBench: Evaluating AI's Ability to Replicate AI Research

Apr 2

ByGiulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan

從視頻擴散模型中提取關節運動學
Articulated Kinematics Distillation from Video Diffusion Models

Apr 1

ByXuan Li, Qianli Ma, Tsung-Yi Lin, Yongxin Chen, Chenfanfu Jiang, Ming-Yu Liu, Donglai Xiang

ILLUME+：通过双重视觉标记化与扩散优化实现统一多模态大模型的明澈呈现
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

Apr 2

ByRunhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu

透過AI反饋的直接偏好優化，提升您的人類圖像生成模型
Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

May 30

BySanghyeon Na, Yonggyu Kim, Hyunjoon Lee

MegaTTS 3：基於稀疏對齊增強潛在擴散變換器的零樣本語音合成
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

Feb 26

ByZiyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao

保護視覺語言模型：減輕基於擾動攻擊中高斯噪聲的脆弱性
Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

Apr 2

ByJiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam

DASH：視覺語言模型系統性幻覺的檢測與評估
DASH: Detection and Assessment of Systematic Hallucinations of VLMs

Mar 30

ByMaximilian Augustin, Yannic Neuhaus, Matthias Hein

LSNet：見大識小，聚焦細微
LSNet: See Large, Focus Small

Mar 29

ByAo Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding

Quamba2：一個針對選擇性狀態空間模型的穩健且可擴展的訓練後量化框架
Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models

Mar 28

ByHung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu