AI研究論文每日精選

每日精選AI研究論文及翻譯

基於稀疏自編碼器的生成文本檢測之特徵層面洞察
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

Mar 5

ByKristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov

232

隨著大型語言模型（LLMs）的迅速發展，人工文本檢測（ATD）變得日益重要。儘管已有眾多研究努力，但尚無單一算法能在不同類型的未見文本上始終表現優異，或能保證對新型LLMs的有效泛化。可解釋性在實現這一目標中扮演著關鍵角色。在本研究中，我們通過使用稀疏自編碼器（SAE）從Gemma-2-2b的殘差流中提取特徵，來增強ATD的可解釋性。我們識別出既具可解釋性又高效的特徵，並通過領域和模型特定的統計分析、引導方法以及人工或基於LLM的解釋，來分析這些特徵的語義和相關性。我們的方法為理解不同模型生成的文本與人類撰寫內容之間的差異提供了寶貴的見解。我們展示出現代LLMs具有獨特的寫作風格，特別是在信息密集的領域中，即使它們能夠通過個性化提示生成類似人類的輸出。

SEAP：免訓練的稀疏專家激活修剪釋放大語言模型的智慧潛能
SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models

Mar 10

ByXun Liang, Hanyu Wang, Huayi Lai, Simin Niu, Shichao Song, Jiawei Yang, Jihao Zhao, Feiyu Xiong, Bo Tang, Zhiyu Li

大型語言模型在各種自然語言處理任務中取得了顯著成功，然而其推理過程中的高計算成本仍是主要瓶頸。本文介紹了稀疏專家激活剪枝（SEAP），這是一種無需訓練的剪枝方法，選擇性地保留任務相關參數以減少推理開銷。受大型語言模型中隱藏狀態和激活的聚類模式啟發，SEAP識別出任務特定的專家激活模式，並在保持任務性能的同時提升計算效率。實驗結果表明，SEAP顯著降低了計算開銷，同時保持了競爭性的準確率。值得注意的是，在50%的剪枝率下，SEAP超越了WandA和FLAP超過20%，而在20%的剪枝率下，與密集模型相比僅有2.2%的性能下降。這些發現凸顯了SEAP的可擴展性和有效性，使其成為優化大規模語言模型的一種有前景的方法。

MM-Eureka：基於規則的大規模強化學習探索視覺頓悟時刻
MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

Mar 10

ByFanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao

我們介紹了MM-Eureka，這是一個多模態推理模型，成功將大規模基於規則的強化學習（RL）擴展至多模態推理領域。儘管基於規則的RL在提升大型語言模型（LLMs）於文本領域的推理能力方面已展現出顯著成效，但其在多模態環境中的應用一直面臨挑戰。我們的工作在多模態空間中重現了如DeepSeek-R1等基於文本的RL系統的關鍵特徵，包括準確性獎勵和回應長度的穩步提升，以及反思行為的出現。我們證明，無論是指令微調還是預訓練模型，都能通過基於規則的RL發展出強大的多模態推理能力，無需監督微調，並展現出相較於其他方法更優的數據效率。我們開源了完整的流程，以促進該領域的進一步研究。所有代碼、模型、數據等均已發佈於https://github.com/ModalMinds/MM-EUREKA。

VACE：全方位影片創作與編輯平台
VACE: All-in-One Video Creation and Editing

Mar 10

ByZeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu

擴散變換器（Diffusion Transformer）在生成高質量圖像和視頻方面展現了強大的能力和可擴展性。進一步追求生成與編輯任務的統一，已在圖像內容創作領域取得了顯著進展。然而，由於對時空動態一致性的內在需求，實現視頻合成的統一方法仍然具有挑戰性。我們引入了VACE，它使用戶能夠在一個全功能框架內執行視頻任務，涵蓋創建與編輯。這些任務包括參考到視頻生成、視頻到視頻編輯以及遮罩視頻到視頻編輯。具體而言，我們通過將視頻任務輸入（如編輯、參考和遮罩）組織成一個統一界面，即視頻條件單元（Video Condition Unit, VCU），有效地整合了各類任務的需求。此外，通過利用上下文適配器（Context Adapter）結構，我們使用時空維度的形式化表示將不同任務概念注入模型，使其能夠靈活處理任意視頻合成任務。大量實驗表明，VACE的統一模型在各種子任務上達到了與特定任務模型相當的性能。同時，它通過多樣化的任務組合實現了廣泛的應用。項目頁面：https://ali-vilab.github.io/VACE-Page/。

基於多智能體思維鏈規劃的自動電影生成
Automated Movie Generation via Multi-Agent CoT Planning

Mar 10

ByWeijia Wu, Zeyu Zhu, Mike Zheng Shou

現有的長視頻生成框架缺乏自動化規劃，需要手動輸入劇情、場景、攝影和角色互動，導致高成本和低效率。為解決這些挑戰，我們提出了MovieAgent，這是一個通過多代理思維鏈（CoT）規劃實現的自動化電影生成系統。MovieAgent具有兩大優勢：1）我們首次探索並定義了自動化電影/長視頻生成的範式。給定劇本和角色庫，我們的MovieAgent能夠生成多場景、多鏡頭的長視頻，並確保敘事連貫、角色一致、字幕同步以及音頻穩定。2）MovieAgent引入了基於分層CoT的推理過程，自動構建場景、攝影機設置和攝影技術，顯著減少了人力投入。通過使用多個大型語言模型（LLM）代理來模擬導演、編劇、分鏡師和場地經理的職責，MovieAgent簡化了製作流程。實驗表明，MovieAgent在劇本忠實度、角色一致性和敘事連貫性方面達到了新的最先進水平。我們的分層框架邁出了重要一步，為全自動電影生成提供了新的見解。代碼和項目網站可在以下網址獲取：https://github.com/showlab/MovieAgent 和 https://weijiawu.github.io/MovieAgent。

筆記帶來專注？邁向多輪多模態對話學習
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning

Mar 10

ByJiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu

基於大規模預訓練視覺塔和語言模型構建的多模態大語言模型（MLLMs），在多模態理解方面展現了卓越的能力。然而，現有的大多數MLLMs僅在單輪視覺問答任務上進行訓練，這並不能準確反映現實世界中的人類對話。本文中，我們引入了MMDiag，一個多輪多模態對話數據集。該數據集通過精心設計的規則和GPT的協助共同生成，其特點在於問題之間、問題與圖像之間以及不同圖像區域之間具有強相關性，從而更貼近現實場景。MMDiag作為多輪多模態對話學習的強力基準，為MLLMs的基礎與推理能力帶來了更多挑戰。此外，受人類視覺處理的啟發，我們提出了DiagNote，這是一個具備多模態基礎與推理能力的MLLM。DiagNote由兩個相互作用的模塊（Deliberate和Gaze）組成，在多輪對話中分別執行思維鏈和註解。我們通過實驗證明了DiagNote在基礎能力以及視覺與語言信息的聯合處理與推理方面相較於現有MLLMs的優勢。

FedRand：透過隨機化LoRA子參數更新提升聯邦學習的隱私保護
FedRand: Enhancing Privacy in Federated Learning with Randomized LoRA Subparameter Updates

Mar 10

BySangwoo Park, Seanie Lee, Byungjoo Kim, Sung Ju Hwang

聯邦學習（Federated Learning, FL）是一種廣泛應用於分散式模型訓練的框架，確保中央伺服器無法直接存取本地客戶端的數據。然而，這種方法可能仍無法完全保障數據隱私，因為在聚合過程中，本地客戶端的模型會暴露給中央伺服器。這一問題在利用FL訓練視覺語言模型（Vision-Language Models, VLMs）時尤為關鍵，因為VLMs容易記住訓練數據實例，使其易受成員推斷攻擊（Membership Inference Attacks, MIAs）的威脅。為應對這一挑戰，我們提出了FedRand框架，該框架避免披露完整的客戶端參數集。在此框架中，每個客戶端從伺服器隨機選取低秩適應（Low-Rank Adaptation, LoRA）的子參數，並將LoRA權重的其餘部分保留為私有參數。在客戶端私有數據集上訓練這兩類參數後，僅將非私有的客戶端參數回傳至伺服器進行聚合。此方法降低了客戶端VLM參數暴露的風險，從而增強了數據隱私。我們通過實驗驗證，與相關基線相比，FedRand在多個基準數據集上不僅提升了對MIAs的魯棒性，還達到了與傳輸完整LoRA參數方法相當的準確率。

DistiLLM-2：對比學習方法提升大型語言模型的蒸餾效能
DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs

Mar 10

ByJongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun

儘管蒸餾技術在大語言模型（LLMs）中取得了成功，但大多數先前的研究對教師和學生生成的數據都採用了相同的損失函數。這些策略忽視了損失函數與數據類型之間的協同作用，導致學生模型的性能提升不夠理想。為解決這一問題，我們提出了DistiLLM-2，這是一種對比方法，通過利用這種協同作用，同時提高教師回應的可能性並降低學生回應的可能性。我們的大量實驗表明，DistiLLM-2不僅在包括指令遵循和代碼生成在內的廣泛任務中構建了高性能的學生模型，還支持偏好對齊和視覺語言擴展等多樣化應用。這些發現凸顯了對比方法在通過有效對齊教師和學生模型來增強LLM蒸餾效能方面的潛力。

Vision-R1：激勵多模態大型語言模型中的推理能力
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Mar 9

ByWenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin

DeepSeek-R1-Zero 已成功展示了大型语言模型（LLMs）仅通过强化学习（RL）即可涌现出推理能力。受此突破启发，我们探索了如何利用 RL 来增强多模态语言模型（MLLMs）的推理能力。然而，由于缺乏大量高质量的多模态推理数据，直接使用 RL 训练难以激活 MLLMs 中的复杂推理能力，如提问和反思。为解决这一问题，我们提出了推理型 MLLM——Vision-R1，以提升多模态推理能力。具体而言，我们首先通过利用现有 MLLM 和 DeepSeek-R1，借助模态桥接和数据过滤，构建了一个无需人工标注的高质量多模态 CoT 数据集，即 Vision-R1-cold 数据集，包含 20 万条多模态 CoT 数据，作为 Vision-R1 的冷启动初始化数据。为缓解冷启动后因过度思考导致的优化难题，我们提出了渐进式思维抑制训练（PTST）策略，并采用组相对策略优化（GRPO）结合硬格式化结果奖励函数，逐步精炼模型在 10K 多模态数学数据集上学习正确且复杂推理过程的能力。综合实验表明，我们的模型在多个多模态数学推理基准上平均提升了约 6%。Vision-R1-7B 在广泛使用的 MathVista 基准上达到了 73.5% 的准确率，仅比领先的推理模型 OpenAI O1 低 0.4%。数据集和代码将发布于：https://github.com/Osilly/Vision-R1。

EasyControl：為擴散變換器增添高效靈活的控制能力
EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer

Mar 10

ByYuxuan Zhang, Yirui Yuan, Yiren Song, Haofan Wang, Jiaming Liu

基於Unet的擴散模型，如ControlNet和IP-Adapter，近期取得了顯著進展，引入了有效的空間與主體控制機制。然而，DiT（擴散變壓器）架構在實現高效且靈活的控制方面仍面臨挑戰。為解決這一問題，我們提出了EasyControl，這是一個旨在統一條件引導擴散變壓器的新框架，具備高效與靈活性。我們的框架基於三大創新點。首先，我們引入了一個輕量級的條件注入LoRA模塊。該模塊獨立處理條件信號，作為即插即用的解決方案，避免了修改基礎模型權重，確保了與定制模型的兼容性，並支持多樣化條件的靈活注入。值得注意的是，此模塊還支持和諧且穩健的零樣本多條件泛化，即便僅在單一條件數據上訓練。其次，我們提出了一種位置感知訓練範式。該方法將輸入條件標準化至固定分辨率，允許生成任意縱橫比和靈活分辨率的圖像，同時優化了計算效率，使框架更適合實際應用。第三，我們開發了一種結合KV緩存技術的因果注意力機制，專為條件生成任務設計。這一創新顯著降低了圖像合成的延遲，提升了框架的整體效率。通過大量實驗，我們證明了EasyControl在多種應用場景中均表現出色。這些創新共同使我們的框架高效、靈活，適用於廣泛的任務領域。

超越RAG：面向全面知识推理的任务感知KV缓存压缩
Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning

Mar 6

ByGiulio Corallo, Orion Weller, Fabio Petroni, Paolo Papotti

將外部知識融入大型語言模型（LLMs）能顯著提升其在多樣應用中的效用，但現有方法均存在權衡。檢索增強生成（RAG）通過相似性搜索獲取證據，但關鍵信息可能不在排名靠前的結果中。長上下文模型雖能處理多份文檔，卻計算成本高昂且受上下文窗口大小限制。受學生為開卷考試精簡學習資料的啟發，我們提出了任務感知的鍵值（KV）緩存壓縮技術，該技術在零樣本或少樣本設置下壓縮外部知識，使LLMs能夠高效地對所有相關信息的精簡表示進行推理。實驗表明，我們的方法在準確性上優於RAG及任務無關的壓縮方法。在LongBench v2上，以30倍壓縮率，其準確率較RAG提升最多達7個絕對百分點，同時將推理延遲從0.43秒降至0.16秒。一項合成數據集分析揭示，當稀疏證據足夠時，RAG表現良好，而對於廣泛知識任務，任務感知壓縮則更為優越。

AlphaDrive：透過強化學習與推理釋放視覺語言模型在自動駕駛中的潛能
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

Mar 10

ByBo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang

OpenAI o1 和 DeepSeek R1 在數學和科學等複雜領域中，通過強化學習（RL）和推理的關鍵作用，達到甚至超越了人類專家級別的性能。在自動駕駛領域，近期的端到端模型顯著提升了規劃性能，但由於常識和推理能力的限制，仍難以應對長尾問題。一些研究將視覺語言模型（VLMs）整合到自動駕駛中，但這些研究通常依賴於預訓練模型，並僅對駕駛數據進行簡單的監督微調（SFT），而沒有進一步探索專門針對規劃的訓練策略或優化方法。本文提出了一種名為 AlphaDrive 的 RL 和推理框架，專為自動駕駛中的 VLMs 設計。AlphaDrive 引入了四種基於 GRPO 的 RL 獎勵機制，專門針對規劃任務，並採用了一種結合 SFT 與 RL 的兩階段規劃推理訓練策略。結果表明，與僅使用 SFT 或缺乏推理的方法相比，AlphaDrive 顯著提升了規劃性能和訓練效率。此外，我們還驚喜地發現，經過 RL 訓練後，AlphaDrive 展現出一些新興的多模態規劃能力，這對於提升駕駛安全性和效率至關重要。據我們所知，AlphaDrive 是首個將基於 GRPO 的 RL 與規劃推理整合到自動駕駛中的方法。我們將公開代碼，以促進未來的研究。

WritingBench：生成式寫作的綜合基準測試平台
WritingBench: A Comprehensive Benchmark for Generative Writing

Mar 7

ByYuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang

近期大型語言模型（LLMs）的進展顯著提升了文本生成能力，然而評估其在生成性寫作中的表現仍是一大挑戰。現有的基準測試主要聚焦於通用文本生成或有限的寫作任務，未能涵蓋跨領域高質量書面內容的多樣化需求。為彌補這一差距，我們提出了WritingBench，這是一個全面的基準測試，旨在評估LLMs在6個核心寫作領域及100個子領域中的表現，涵蓋創意、說服性、信息性和技術性寫作。我們進一步提出了一種查詢依賴的評估框架，使LLMs能夠動態生成針對特定實例的評估標準。該框架輔以一個微調的批評模型，用於基於標準的評分，從而實現風格、格式和長度方面的評估。該框架的有效性還通過其數據策展能力得到進一步證明，使7B參數模型能夠接近最先進（SOTA）的性能。我們開源了這一基準測試，連同評估工具和模塊化框架組件，以推動LLMs在寫作領域的發展。

代理模型：將行動鏈生成內化至推理模型中
Agent models: Internalizing Chain-of-Action Generation into Reasoning models

Mar 9

ByYuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang

傳統的代理工作流程依賴外部提示來管理與工具及環境的互動，這限制了推理模型的自主動性。我們提出大型代理模型（LAMs），其內化了行動鏈（CoA）的生成，使模型能自主決定何時及如何使用外部工具。我們提出的AutoCoA框架結合了監督式微調（SFT）和強化學習（RL），使模型能在推理與行動間無縫切換，同時高效管理環境互動。主要組件包括步驟級別的行動觸發、軌跡級別的CoA優化，以及一個內部世界模型以降低實際環境互動成本。在開放領域問答任務上的評估顯示，經AutoCoA訓練的代理模型在任務完成度上顯著優於基於ReAct的工作流程，特別是在需要長期推理和多步驟行動的任務中。代碼和數據集可在https://github.com/ADaM-BJTU/AutoCoA 獲取。

FEA-Bench：一個用於評估倉庫級代碼生成在功能實現中的基準測試
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation

Mar 9

ByWei Li, Xin Zhang, Zhongxin Guo, Shaoguang Mao, Wen Luo, Guangyue Peng, Yangyu Huang, Houfeng Wang, Scarlett Li

在程式碼庫層級實現新功能是程式碼生成模型的一個關鍵應用。然而，現有的基準測試缺乏專門針對此能力的評估框架。為填補這一空白，我們引入了FEA-Bench，這是一個旨在評估大型語言模型（LLMs）在程式碼庫中進行增量開發能力的基準測試。我們從83個GitHub儲存庫中收集了拉取請求，並使用基於規則和基於意圖的過濾方法來構建專注於新功能開發的任務實例。每個包含程式碼變更的任務實例都配備了相關的單元測試文件，以確保解決方案能夠被驗證。該功能實現要求LLMs同時具備新元件的程式碼補全能力和程式碼庫中其他相關部分的程式碼編輯能力，從而提供了一種更全面的LLMs自動化軟體工程能力評估方法。實驗結果顯示，LLMs在FEA-Bench中的表現顯著較差，突顯了此類程式碼庫層級增量開發中的重大挑戰。

SurveyForge：論自動化問卷撰寫中的大綱啟發式、記憶驅動生成與多維度評估
SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing

Mar 6

ByXiangchao Yan, Shiyang Feng, Jiakang Yuan, Renqiu Xia, Bin Wang, Bo Zhang, Lei Bai

綜述論文在科學研究中扮演著至關重要的角色，尤其是在研究出版物快速增長的背景下。近年來，研究人員開始利用大型語言模型（LLMs）自動生成綜述，以提高效率。然而，LLM生成的綜述與人類撰寫的綜述之間仍存在顯著質量差距，特別是在大綱質量和引用準確性方面。為縮小這些差距，我們推出了SurveyForge，該工具首先通過分析人類撰寫綜述的邏輯結構並參考檢索到的領域相關文獻來生成大綱。隨後，利用學者導航代理從記憶中檢索到的高質量論文，SurveyForge能夠自動生成並精煉文章內容。此外，為實現全面評估，我們構建了SurveyBench，其中包含100篇人類撰寫的綜述論文用於勝率比較，並從參考文獻、大綱和內容質量三個維度評估AI生成的綜述論文。實驗結果表明，SurveyForge能夠超越AutoSurvey等先前工作。

MedAgentsBench：針對複雜醫療推理的思維模型與代理框架基準測試
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

Mar 10

ByXiangru Tang, Daniel Shao, Jiwoong Sohn, Jiapeng Chen, Jiayi Zhang, Jinyu Xiang, Fang Wu, Yilun Zhao, Chenglin Wu, Wenqi Shi, Arman Cohan, Mark Gerstein

大型语言模型（LLMs）在现有的医疗问答基准测试中展现了令人瞩目的表现。这种卓越的性能使得对先进方法进行有意义的评估和区分变得越来越困难。我们提出了MedAgentsBench，这是一个专注于挑战性医疗问题的基准测试，这些问题需要多步骤的临床推理、诊断制定和治疗规划——在这些场景中，尽管当前模型在标准测试中表现出色，但仍存在困难。借鉴七个成熟的医疗数据集，我们的基准测试解决了现有评估中的三个关键局限：（1）简单问题普遍存在，即使基础模型也能取得高分；（2）不同研究间的采样和评估协议不一致；（3）缺乏对性能、成本和推理时间之间相互作用的系统分析。通过对多种基础模型和推理方法的实验，我们展示了最新的思维模型——DeepSeek R1和OpenAI o3——在复杂医疗推理任务中的卓越表现。此外，与传统的搜索方法相比，基于搜索的高级代理方法提供了更具前景的性能成本比。我们的分析揭示了在复杂问题上模型家族间显著的性能差距，并为不同的计算约束条件确定了最优模型选择。我们的基准测试和评估框架已公开发布于https://github.com/gersteinlab/medagents-benchmark。

YOLOE：實時視覺感知萬物
YOLOE: Real-Time Seeing Anything

Mar 10

ByAo Wang, Lihao Liu, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding

物件偵測與分割技術在電腦視覺應用中廣泛使用，然而傳統模型如YOLO系列，雖具高效能與精確度，卻受限於預定義類別，在開放場景中的適應性受到阻礙。近期開放集方法利用文字提示、視覺線索或無提示模式來克服此限制，但常因高計算需求或部署複雜性而在效能與效率間做出妥協。本研究提出YOLOE，它整合了多樣化開放提示機制下的偵測與分割於單一高效能模型中，實現了即時「見物識物」的能力。針對文字提示，我們提出可重參數化的區域-文字對齊策略（RepRTA），透過可重參數化的輕量輔助網絡精煉預訓練的文字嵌入，並在零推理與轉移開銷下強化視覺-文字對齊。對於視覺提示，我們提出語義激活視覺提示編碼器（SAVPE），採用解耦的語義與激活分支，以最小複雜度提升視覺嵌入與準確性。在無提示情境下，我們引入懶惰區域-提示對比策略（LRPC），利用內建的大詞彙庫與專用嵌入來識別所有物件，避免依賴昂貴的語言模型。大量實驗顯示，YOLOE在零樣本效能與可轉移性上表現卓越，具備高推理效率與低訓練成本。特別是在LVIS數據集上，YOLOE-v8-S以三倍少的訓練成本與1.4倍的推理速度，超越YOLO-Worldv2-S達3.5 AP。轉移至COCO數據集時，YOLOE-v8-L相較於封閉集YOLOv8-L，在AP^b與AP^m上分別提升0.6與0.4，且訓練時間減少近四倍。程式碼與模型可於https://github.com/THU-MIG/yoloe取得。

透過自回歸表示對齊釋放大規模語言模型在文本到圖像生成中的潛力
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment

Mar 10

ByXing Xie, Jiawei Liu, Ziyue Lin, Huijie Fan, Zhi Han, Yandong Tang, Liangqiong Qu

我們提出了自迴歸表示對齊（ARRA），這是一種新的訓練框架，能夠在不改變架構的情況下，實現自迴歸大型語言模型（LLMs）的全局一致性文本到圖像生成。與之前需要複雜架構重新設計的工作不同，ARRA通過全局視覺對齊損失和混合標記<HYBNEXT>，將LLM的隱藏狀態與外部視覺基礎模型的視覺表示對齊。該標記施加了雙重約束：局部下一個標記預測和全局語義蒸餾，使LLM能夠在保持其原始自迴歸範式的同時，隱式學習空間和上下文一致性。大量實驗驗證了ARRA的即插即用多功能性。當從僅用於文本生成的LLM或隨機初始化進行訓練時，ARRA在無需修改框架的情況下，為Chameleon和LlamaGen等高級自迴歸LLM分別降低了25.5%（MIMIC-CXR）、8.8%（DeepEyeNet）和7.5%（ImageNet）的FID。在領域適應方面，ARRA將通用LLM與專業模型（如BioMedCLIP）對齊，在醫學影像（MIMIC-CXR）上比直接微調實現了18.6%的FID降低。通過展示訓練目標的重新設計——而不僅僅是架構創新——可以解決跨模態全局一致性挑戰，ARRA為推進自迴歸模型提供了一種互補的範式。代碼和模型將被公開，以推動自迴歸圖像生成的發展。

LLaVE：基於難度加權對比學習的大型語言與視覺嵌入模型
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Mar 4

ByZhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su

通用多模態嵌入模型在交錯圖文檢索、多模態RAG（檢索增強生成）以及多模態聚類等任務中扮演著關鍵角色。然而，我們的實證結果顯示，基於現有LMM（大型多模態模型）並採用標準InfoNCE損失訓練的嵌入模型，在正負樣本對的相似度分佈上存在高度重疊，這使得有效區分困難負樣本對變得頗具挑戰。為解決這一問題，我們提出了一個簡潔而高效的框架，該框架根據樣本對的區分難度動態提升嵌入模型對負樣本對的表示學習能力。在此框架內，我們訓練了一系列名為LLaVE的模型，並在涵蓋4大元任務及36個數據集的MMEB基準上進行了評估。實驗結果表明，LLaVE建立了更強的基準線，實現了當前最先進（SOTA）的性能，同時展現出優異的可擴展性和效率。具體而言，LLaVE-2B超越了之前的7B SOTA模型，而LLaVE-7B則進一步將性能提升了6.2個百分點。儘管LLaVE是在圖文數據上訓練的，但它能夠以零樣本方式泛化至文本-視頻檢索任務，並取得強勁表現，這展示了其在遷移至其他嵌入任務方面的巨大潛力。

夢境關係：以關係為核心的影片客製化
DreamRelation: Relation-Centric Video Customization

Mar 10

ByYujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan

關係視頻定制是指創建描繪用戶指定兩個主體之間關係的個性化視頻，這對於理解現實世界中的視覺內容至關重要。雖然現有方法能夠個性化主體的外觀和動作，但在複雜的關係視頻定制方面仍存在困難，其中精確的關係建模和跨主體類別的高泛化能力至關重要。主要挑戰來自於關係中固有的複雜空間佈局、佈局變化和細微的時間動態；因此，當前模型往往過於強調不相關的視覺細節，而非捕捉有意義的互動。為應對這些挑戰，我們提出了DreamRelation，這是一種通過少量示例視頻個性化關係的新方法，利用兩個關鍵組件：關係解耦學習和關係動態增強。首先，在關係解耦學習中，我們使用關係LoRA三元組和混合掩碼訓練策略將關係與主體外觀分離，確保在不同關係中具有更好的泛化能力。此外，我們通過分析MM-DiT注意力機制中查詢、鍵和值特徵的獨特作用，確定了關係LoRA三元組的最佳設計，使DreamRelation成為首個具有可解釋組件的關係視頻生成框架。其次，在關係動態增強中，我們引入了時空關係對比損失，該損失優先考慮關係動態，同時最小化對詳細主體外觀的依賴。大量實驗表明，DreamRelation在關係視頻定制方面優於最先進的方法。代碼和模型將公開提供。

高效且有效的掩碼圖像生成模型
Effective and Efficient Masked Image Generation Models

Mar 10

ByZebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li

尽管掩码图像生成模型和掩码扩散模型在设计动机和目标上有所不同，但我们观察到它们可以在一个统一的框架下进行整合。基于这一洞见，我们深入探索了训练和采样的设计空间，识别出对性能和效率均有贡献的关键因素。在此探索过程中，我们根据观察到的改进，开发了我们的模型，称为eMIGM。实验表明，eMIGM在ImageNet生成任务上表现出色，通过Fr\'echet Inception Distance (FID) 衡量。特别是在ImageNet 256x256数据集上，在相似的功能评估次数（NFEs）和模型参数数量下，eMIGM超越了开创性的VAR模型。此外，随着NFE和模型参数的增加，eMIGM在仅需不到40%的NFE的情况下，实现了与最先进的连续扩散模型相当的性能。同时，在ImageNet 512x512数据集上，仅需约60%的NFE，eMIGM便超越了当前最先进的连续扩散模型。

Seg-Zero：基於認知強化的推理鏈引導分割
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement

Mar 9

ByYuqi Liu, Bohao Peng, Zhisheng Zhong, Zihao Yue, Fanbin Lu, Bei Yu, Jiaya Jia

傳統的推理分割方法依賴於帶有類別標籤和簡單描述的監督微調，這限制了其跨領域的泛化能力，並且缺乏明確的推理過程。為了解決這些限制，我們提出了Seg-Zero，這是一個新穎的框架，展示了卓越的泛化能力，並通過認知強化推導出明確的思維鏈推理。Seg-Zero引入了一種解耦的架構，由推理模型和分割模型組成。推理模型解釋用戶意圖，生成明確的推理鏈，並產生位置提示，這些提示隨後被分割模型用來生成精確的像素級掩碼。我們設計了一種複雜的獎勵機制，整合了格式和準確性獎勵，以有效指導優化方向。Seg-Zero僅通過GRPO的強化學習進行訓練，無需顯式的推理數據，實現了強大的零樣本泛化，並展現了測試時的推理能力。實驗表明，Seg-Zero-7B在ReasonSeg基準測試中達到了57.5的零樣本性能，超過了之前的LISA-7B 18%。這一顯著的改進凸顯了Seg-Zero在跨領域泛化能力的同時，呈現出明確的推理過程。代碼可在https://github.com/dvlab-research/Seg-Zero獲取。

PE3R：感知高效的三維重建
PE3R: Perception-Efficient 3D Reconstruction

Mar 10

ByJie Hu, Shizun Wang, Xinchao Wang

近期在二維到三維感知領域的進展顯著提升了從二維圖像理解三維場景的能力。然而，現有方法面臨著關鍵挑戰，包括跨場景的泛化能力有限、感知精度欠佳以及重建速度緩慢。為解決這些限制，我們提出了感知高效的三維重建框架（PE3R），這是一種旨在同時提升精度和效率的新穎框架。PE3R採用前饋架構，實現快速的三維語義場重建。該框架在跨多樣場景和物體的零樣本泛化上表現出強健性，同時顯著提高了重建速度。在二維到三維開放詞彙分割和三維重建上的大量實驗驗證了PE3R的有效性和多功能性。該框架在三維語義場重建中實現了至少9倍的速度提升，並在感知精度和重建精確度上取得了顯著進步，為該領域樹立了新的基準。代碼已公開於：https://github.com/hujiecpp/PE3R。

文字或視覺：視覺語言模型是否對文本盲目信任？
Words or Vision: Do Vision-Language Models Have Blind Faith in Text?

Mar 4

ByAilin Deng, Tri Cao, Zhirui Chen, Bryan Hooi

視覺-語言模型（VLMs）在整合視覺與文本資訊以執行視覺中心任務方面表現卓越，然而，它們在處理模態間不一致性方面的能力尚未被充分探討。本研究探討了在視覺中心情境下，當面對視覺數據與多樣化文本輸入時，VLMs的模態偏好。通過在四個視覺中心任務中引入文本變體並評估十種視覺-語言模型，我們發現了一種「盲目信任文本」的現象：當出現不一致時，VLMs過度依賴文本數據而非視覺數據，這導致在文本受損時性能顯著下降，並引發安全隱患。我們分析了影響這種文本偏見的因素，包括指令提示、語言模型規模、文本相關性、詞序以及視覺與文本確定性之間的相互作用。雖然某些因素（如擴大語言模型規模）能略微減輕文本偏見，但其他因素（如詞序）可能因語言模型繼承的位置偏見而加劇這一問題。為解決此問題，我們探索了基於文本增強的監督微調，並證明了其在減少文本偏見方面的有效性。此外，我們提供了一項理論分析，表明「盲目信任文本」現象可能源於訓練過程中純文本與多模態數據的不平衡。我們的研究結果強調了在VLMs中實現平衡訓練及謹慎考慮模態交互的必要性，以增強其在處理多模態數據不一致性時的魯棒性與可靠性。

此乃汝之Doge，若汝悦之：探索大型語言模型混合中的欺騙與魯棒性
This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs

Mar 7

ByLorenz Wolf, Sangwoong Yoon, Ilija Bogunovic

大型語言模型（LLM）代理混合架構（MoA）通過在推理時利用多個LLM的協作，在AlpacaEval 2.0等知名基準測試中取得了最先進的性能。儘管取得了這些成功，但對MoA的安全性和可靠性的評估仍然缺失。我們首次全面研究了MoA在面對故意提供誤導性回應的欺騙性LLM代理時的魯棒性。我們考察了欺騙性信息的傳播、模型大小和信息可用性等因素，並揭示了關鍵的脆弱性。在AlpacaEval 2.0上，流行的LLaMA 3.1-70B模型與3層MoA（6個LLM代理）結合時，長度控制勝率（LC WR）達到49.2%。然而，我們證明，僅在MoA中引入一個精心指示的欺騙性代理，即可將性能降低至37.9%，從而完全抵消了MoA的所有增益。在QuALITY這項多項選擇理解任務中，影響同樣嚴重，準確率驚人地下降了48.5%。部分受到歷史上威尼斯總督投票過程的啟發，該過程旨在最小化影響和欺騙，我們提出了一系列無監督防禦機制，能夠恢復大部分損失的性能。

Zero-AVSR：通過學習語言無關的語音表徵，利用大型語言模型實現零樣本音視頻語音識別
Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations

Mar 8

ByJeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro

我們探索了一種新穎的零樣本音頻-視覺語音識別（AVSR）框架，名為Zero-AVSR，該框架能夠在目標語言中進行語音識別，而無需這些語言的任何音頻-視覺語音數據。具體而言，我們引入了音頻-視覺語音羅馬化器（AV-Romanizer），它通過預測羅馬文本來學習語言無關的語音表示。然後，利用大型語言模型（LLMs）強大的多語言建模能力，我們提出將預測的羅馬文本轉換為特定語言的字符，形成所提出的級聯Zero-AVSR。更進一步，我們探索了一種統一的Zero-AVSR方法，通過直接將AV-Romanizer編碼的音頻-視覺語音表示整合到LLM中。這是通過使用我們提出的多任務學習方案微調適配器和LLM來實現的。為了捕捉廣泛的語音和語言多樣性，我們還引入了一個多語言音頻-視覺羅馬化語料庫（MARC），該語料庫包含82種語言的2,916小時音頻-視覺語音數據，以及特定語言字符和羅馬文本的轉錄。廣泛的分析和實驗證實，所提出的Zero-AVSR框架具有擴展語言支持的潛力，超越AV-Romanizer訓練期間所見的語言。

狀態偏移調校：基於狀態的參數高效微調方法應用於狀態空間模型
State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space Models

Mar 5

ByWonjun Kang, Kevin Galim, Yuchen Zeng, Minjae Lee, Hyung Il Koo, Nam Ik Cho

狀態空間模型（SSMs）已成為Transformer的高效替代方案，有效緩解了其二次方計算成本的問題。然而，參數高效微調（PEFT）方法在SSMs上的應用仍鮮有探索。特別是，在Transformer中廣泛使用的基於提示的方法，如提示調優（Prompt Tuning）和前綴調優（Prefix-Tuning），在SSMs上表現不佳。為此，我們提出了基於狀態的方法作為基於提示方法的優越替代方案。這一新方法家族自然源於SSMs的架構特性。基於狀態的方法直接調整與狀態相關的特徵，而非依賴外部提示。此外，我們引入了一種新穎的基於狀態的PEFT方法：狀態偏移調優（State-offset Tuning）。在每個時間步，我們的方法直接影響當前步驟的狀態，從而實現更有效的適應。通過在多樣化數據集上的廣泛實驗，我們證明了該方法的有效性。代碼可在https://github.com/furiosa-ai/ssm-state-tuning獲取。

DiffCLIP：差分注意力机制与CLIP的融合
DiffCLIP: Differential Attention Meets CLIP

Mar 9

ByHasan Abed Al Kader Hammoud, Bernard Ghanem

我們提出了DiffCLIP，這是一種新穎的視覺-語言模型，它將差分注意力機制擴展到了CLIP架構中。差分注意力最初是為大型語言模型開發的，旨在放大相關上下文同時消除噪聲信息。在本研究中，我們將這一機制整合到CLIP的雙編碼器（圖像和文本）框架中。DiffCLIP僅需增加少量參數，便在圖像-文本理解任務上實現了卓越的性能。在零樣本分類、檢索和魯棒性基準測試中，DiffCLIP始終優於基礎CLIP模型。值得注意的是，這些性能提升伴隨著可忽略的計算開銷，表明差分注意力能夠在不犧牲效率的情況下顯著增強多模態表示。代碼可在https://github.com/hammoudhasan/DiffCLIP 找到。

BlackGoose Rimer：運用RWKV-7作為大規模時間序列建模中Transformer的簡潔而卓越替代方案
BlackGoose Rimer: Harnessing RWKV-7 as a Simple yet Superior Replacement for Transformers in Large-Scale Time Series Modeling

Mar 8

ByLi weile, Liu Xiao

時間序列模型在擴展以處理大型且複雜的數據集方面面臨著重大挑戰，這與大型語言模型（LLMs）所實現的擴展能力相似。時間序列數據的獨特特性以及模型擴展的計算需求，促使我們需要創新的方法。儘管研究人員已經探索了多種架構，如Transformer、LSTM和GRU來應對這些挑戰，但我們提出了一種使用RWKV-7的新穎解決方案，該方案將元學習整合到其狀態更新機制中。通過將RWKV-7的時間混合和通道混合組件整合到基於Transformer的時間序列模型Timer中，我們實現了約1.13至43.3倍的性能提升，並在訓練時間上減少了4.5倍，同時僅使用了1/23的參數。我們的代碼和模型權重已公開，供進一步研究和開發使用，詳見https://github.com/Alic-Li/BlackGoose_Rimer。

使用適配器高效蒸餾無分類器引導
Efficient Distillation of Classifier-Free Guidance using Adapters

Mar 10

ByCristian Perez Jensen, Seyedmorteza Sadat

儘管無分類器指導（CFG）對於條件擴散模型至關重要，但它使每次推理步驟的神經函數評估（NFEs）數量翻倍。為緩解這一效率問題，我們引入了適配器指導蒸餾（AGD），這是一種新穎的方法，能在單次前向傳播中模擬CFG。AGD利用輕量級適配器來近似CFG，有效將採樣速度提升一倍，同時保持甚至提升樣本質量。與先前調整整個模型的指導蒸餾方法不同，AGD保持基礎模型凍結，僅訓練極少的額外參數（約2%），從而顯著降低蒸餾階段的資源需求。此外，這種方法保留了原始模型權重，並使適配器能夠無縫地與源自同一基礎模型的其他檢查點結合使用。我們還通過在CFG指導的軌跡而非標準擴散軌跡上進行訓練，解決了現有指導蒸餾方法中訓練與推理之間的一個關鍵不匹配問題。通過大量實驗，我們證明AGD在多種架構上僅用一半的NFEs即可實現與CFG相當或更優的FID。值得注意的是，我們的方法使得在單個配備24GB顯存的消費級GPU上蒸餾大型模型（約26億參數）成為可能，相比需要多臺高端GPU的先前方法更易於實現。我們將公開我們方法的實現。

ProBench：評估多模態基礎模型在開放式多領域專家任務上的表現
ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks

Mar 10

ByYan Yang, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu, Liyuan Pan, Junnan Li

解決專家級多模態任務是邁向通用智能的關鍵里程碑。隨著多模態大型語言模型（MLLMs）能力的不斷提升，對這類先進多模態智能的評估變得必要且具有挑戰性。在本研究中，我們引入了ProBench，這是一個基於開放式用戶查詢的基準測試，這些查詢需要專業知識和高級推理能力。ProBench包含4,000個由專業人士根據其日常生產需求獨立提交的高質量樣本，涵蓋10個領域和56個子領域，包括科學、藝術、人文、編程、數學和創意寫作。在實驗中，我們使用MLLM-as-a-Judge評估並比較了24個最新模型。結果顯示，儘管最佳開源模型可與專有模型媲美，但ProBench在視覺感知、文本理解、領域知識和高級推理方面提出了顯著挑戰，從而為未來多模態AI研究提供了有價值的方向。

WISE：面向文本到圖像生成的世界知識語義評估
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

Mar 10

ByYuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan

文本到圖像（T2I）模型能夠生成高品質的藝術創作和視覺內容。然而，現有的研究和評估標準主要集中於圖像的真實性和淺層的文本-圖像對齊，缺乏對文本到圖像生成中複雜語義理解和世界知識整合的全面評估。為應對這一挑戰，我們提出了WISE，這是首個專門為世界知識引導的語義評估設計的基準。WISE超越了簡單的詞語-像素映射，通過在文化常識、時空推理和自然科學等25個子領域中精心設計的1000個提示來挑戰模型。為了克服傳統CLIP指標的局限性，我們引入了WiScore，這是一種用於評估知識-圖像對齊的新穎定量指標。通過對20個模型（10個專用T2I模型和10個統一多模態模型）使用涵蓋25個子領域的1000個結構化提示進行全面測試，我們的研究結果揭示了它們在圖像生成過程中有效整合和應用世界知識的能力存在顯著限制，突顯了在下一代T2I模型中增強知識整合和應用的關鍵途徑。代碼和數據可在https://github.com/PKU-YuanGroup/WISE獲取。

下一個標記足矣：利用多模態大型語言模型實現逼真圖像質量與美學評分
Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model

Mar 8

ByMingxing Li, Rui Wang, Lei Sun, Yancheng Bai, Xiangxiang Chu

移動互聯網的快速擴展導致用戶生成內容（UGC）圖像大幅增加，這使得對UGC圖像的全面評估變得既迫切又必要。近年來，多模態大語言模型（MLLMs）在圖像質量評估（IQA）和圖像美學評估（IAA）方面展現出巨大潛力。儘管取得了這些進展，有效評分UGC圖像的質量和美學仍面臨兩大挑戰：1）單一評分不足以捕捉人類感知的層次性；2）如何利用MLLMs輸出數值評分，如平均意見分數（MOS），仍是一個未解之題。為應對這些挑戰，我們引入了一個名為真實圖像質量與美學（RealQA）的新數據集，包含14,715張UGC圖像，每張圖像都標註了10個細粒度屬性。這些屬性涵蓋三個層次：低層次（如圖像清晰度）、中層次（如主體完整性）和高層次（如構圖）。此外，我們對如何有效利用MLLMs預測數值評分進行了一系列深入全面的研究。令人驚訝的是，僅通過預測兩個額外有效數字，下一個標記範式就能達到SOTA性能。進一步地，借助思維鏈（CoT）結合學習到的細粒度屬性，所提出的方法在五個公開的IQA和IAA數據集上超越了SOTA方法，具有優越的解釋性，並在視頻質量評估（VQA）中展現出強大的零樣本泛化能力。代碼和數據集將被公開。

潛在空間有何奧秘？利用擴散潛在空間實現領域泛化
What's in a Latent? Leveraging Diffusion Latent Space for Domain Generalization

Mar 9

ByXavier Thomas, Deepti Ghadiyaram

領域泛化旨在開發能夠適應新穎且未見過數據分佈的模型。在本研究中，我們探討了模型架構和預訓練目標如何影響特徵豐富性，並提出了一種有效利用這些特徵進行領域泛化的方法。具體而言，給定一個預訓練的特徵空間，我們首先以無監督的方式發現捕捉領域特定變化的潛在領域結構，稱之為偽域。接著，我們利用這些互補的偽域表示來增強現有的分類器，使其更適應多樣化的未見過測試領域。我們分析了不同預訓練特徵空間在捕捉領域特定變異方面的差異。我們的實證研究表明，擴散模型的特徵在缺乏明確領域標籤的情況下，能夠出色地分離領域並捕捉細微的領域特定信息。在五個數據集上，我們展示了這個非常簡單的框架相比標準基線經驗風險最小化（ERM），在未見過領域的泛化能力上提升了最多超過4%的測試準確率。關鍵的是，我們的方法在訓練期間訪問領域標籤的大多數算法中表現更優。

逃離柏拉圖洞穴：邁向3D與文本潛在空間的對齊
Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces

Mar 7

BySouhail Hadgi, Luca Moschella, Andrea Santilli, Diego Gomez, Qixing Huang, Emanuele Rodolà, Simone Melzi, Maks Ovsjanikov

近期研究表明，當進行大規模訓練時，單模態的二維視覺與文本編碼器所學習到的特徵，儘管源自不同的表示方式，卻展現出顯著的結構相似性。然而，三維編碼器相對於其他模態的角色仍未被探索。此外，現有的利用大數據集的三維基礎模型，通常通過與來自其他表示的凍結編碼器進行顯式對齊目標來訓練。在本研究中，我們探討了單模態三維編碼器與基於文本的特徵空間之間進行後驗對齊的可能性。我們發現，對單模態文本和三維編碼器進行簡單的訓練後特徵對齊，其性能有限。隨後，我們專注於提取相應特徵空間的子空間，並發現通過將學習到的表示投影到精心選擇的低維子空間上，對齊質量顯著提高，從而提升了匹配和檢索任務的準確性。我們的分析進一步揭示了這些共享子空間的本質，它們大致區分了語義與幾何數據表示。總的來說，我們的工作首次為三維單模態與文本特徵空間的訓練後對齊建立了基準，並有助於凸顯三維數據相較於其他表示的共享與獨特屬性。

大型語言模型的偵測規避技術
Detection Avoidance Techniques for Large Language Models

Mar 10

BySinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek

大型語言模型的日益普及不僅帶來了廣泛應用，也伴隨著各種風險，包括系統性散播假新聞的可能性。因此，開發如DetectGPT等分類系統變得至關重要。這些檢測器容易受到迴避技術的影響，正如一系列實驗所展示的：系統性調整生成模型的溫度參數，證明了淺層學習檢測器是最不可靠的。通過強化學習微調生成模型，成功繞過了基於BERT的檢測器。最後，重述文本導致了如DetectGPT等零樣本檢測器的迴避率超過90%，儘管文本與原文保持高度相似。與現有工作的比較顯示了所提出方法的更佳性能。文中還討論了對社會的潛在影響及未來研究方向。

TRCE：面向文本到圖像擴散模型的可靠惡意概念消除
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models

Mar 10

ByRuidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie, An-An Liu

近期，文本到圖像擴散模型的進展實現了逼真圖像的生成，但同時也帶來了產生惡意內容（如NSFW圖像）的風險。為降低此風險，研究者們探討了概念消除方法，以促使模型忘卻特定概念。然而，現有研究在完全消除隱含於提示中的惡意概念（例如隱喻表達或對抗性提示）的同時，難以保持模型的正常生成能力。為應對這一挑戰，本研究提出了TRCE，採用兩階段概念消除策略，在可靠消除與知識保留之間實現有效平衡。首先，TRCE從消除文本提示中隱含的惡意語義入手。通過識別關鍵映射目標（即[EoT]嵌入），我們優化交叉注意力層，將惡意提示映射到語境相似但包含安全概念的提示上。此步驟防止模型在去噪過程中過度受惡意語義影響。隨後，考慮到擴散模型採樣軌跡的確定性特性，TRCE進一步通過對比學習，引導早期去噪預測朝向安全方向並遠離不安全方向，從而進一步避免惡意內容的生成。最後，我們在多個惡意概念消除基準上對TRCE進行了全面評估，結果表明其在消除惡意概念的同時，更好地保留了模型的原始生成能力。代碼已開源於：http://github.com/ddgoodgood/TRCE。注意：本文包含模型生成內容，可能含有冒犯性材料。

以數據為核心重新審視預訓練視覺模型在機器人學習中的應用
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

Mar 10

ByXin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi

預訓練視覺模型（PVMs）是現代機器人技術的基石，然而其最佳配置仍不明確。通過系統性評估，我們發現，儘管DINO和iBOT在視覺運動控制和感知任務上優於MAE，但在非（單）物體中心（NOC）數據上訓練時表現欠佳——這一侷限性與其學習物體中心表徵能力下降密切相關。此項研究表明，從非物體中心的機器人數據集中形成物體中心表徵的能力是PVMs成功的關鍵。受此發現啟發，我們設計了SlotMIM方法，該方法通過引入語義瓶頸來減少原型數量，以促進物體性的顯現，並採用跨視圖一致性正則化來鼓勵多視圖不變性。我們的實驗涵蓋了在物體中心、場景中心、網絡爬取和自我中心數據上的預訓練。在所有設置中，我們的方法學習到了可遷移的表徵，並在圖像識別、場景理解和機器人學習評估中相較於先前工作取得了顯著提升。當使用百萬級數據集進行擴展時，我們的方法也展現出卓越的數據效率和可擴展性。我們的代碼和模型已公開於https://github.com/CVMI-Lab/SlotMIM。

促進、抑制、迭代：語言模型如何回應一對多的事實查詢
Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

Feb 27

ByTianyi Lorena Yan, Robin Jia

為了解答一對多的事實查詢（例如列出某個國家的城市），語言模型（LM）必須同時回憶知識並避免重複先前的答案。這兩個子任務是如何在內部實現並整合的呢？通過多個數據集和模型，我們發現了一種“先促進後抑制”的機制：模型首先回憶所有答案，然後抑制先前生成的答案。具體而言，語言模型利用主體和先前的答案標記來執行知識回憶，其中注意力傳播主體信息，而多層感知器（MLP）則促進答案的生成。接著，注意力關注並抑制先前的答案標記，而MLP則放大抑制信號。我們的機制得到了大量實驗證據的支持：除了使用早期解碼和因果追蹤外，我們還通過引入Token Lens（解碼來自指定標記的聚合注意力更新）和一種敲除方法（分析在移除對指定標記的注意力後MLP輸出的變化）來分析組件如何使用不同的標記。總體而言，我們提供了新的見解，揭示了語言模型的內部組件如何與不同的輸入標記互動，以支持複雜的事實回憶。代碼可在https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries獲取。

基於套娃式多模態大語言模型的自適應音視覺語音識別
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs

Mar 9

ByUmberto Cappellazzo, Minsu Kim, Stavros Petridis

視聽語音識別（AVSR）通過結合音頻和視覺模態來增強語音識別的魯棒性，特別是在嘈雜環境中。近年來，大型語言模型（LLMs）在語音識別領域的進展，包括AVSR，已展現出其卓越效能。然而，由於語音表徵的長度顯著，直接與LLMs整合會帶來巨大的計算成本。先前的方法通過在將語音表徵輸入LLMs之前進行壓縮來解決這一問題。然而，較高的壓縮率往往導致性能下降，這需要在計算效率和識別準確性之間做出權衡。為應對這一挑戰，我們提出了Llama-MTSK，這是首個基於Matryoshka的多模態LLM用於AVSR，它能夠根據特定的計算約束靈活調整音視覺令牌的分配，同時保持高性能。我們的方法受Matryoshka表示學習啟發，在單一模型內以多種粒度編碼音視覺表徵，無需為不同壓縮級別訓練獨立模型。此外，為了高效微調LLM，我們引入了三種基於LoRA的Matryoshka策略，利用全局和特定尺度的LoRA模塊。在兩個最大的AVSR數據集上的廣泛評估表明，Llama-MTSK達到了最先進的成果，與在固定壓縮級別下獨立訓練的模型相比，表現相當或更優。

視覺語言模型是否應以圖像數據進行預訓練？
Should VLMs be Pre-trained with Image Data?

Mar 10

BySedrick Keh, Jean Mercat, Samir Yitzhak Gadre, Kushal Arora, Igor Vasiljevic, Benjamin Burchfiel, Shuran Song, Russ Tedrake, Thomas Kollar, Ludwig Schmidt, Achal Dave

經過圖像數據進一步訓練的預訓練大型語言模型（LLMs）在視覺-語言任務上表現出色。雖然在第二訓練階段加入圖像有效釋放了這一能力，但尚不清楚這種兩步訓練流程相比於更早整合圖像的視覺語言模型（VLMs）能帶來多少增益或損失。為探究此問題，我們訓練了涵蓋多種數據集、規模、圖文比例及在引入視覺標記前已完成預訓練量的模型。隨後，我們對這些模型進行微調，並在一系列視覺-語言及純文本任務上評估其下游表現。我們發現，使用圖文混合數據進行預訓練的模型在視覺-語言任務上表現更佳，同時在純文本評估中保持強勁性能。在平均六項多樣化任務中，我們發現對於一個10億參數的模型，在預訓練進度達到80%時引入視覺標記，相比於在完全預訓練後引入視覺標記，平均提升了2%的性能。

基於單一參考視角的新穎物體6D姿態估計
Novel Object 6D Pose Estimation with a Single Reference View

Mar 7

ByJian Liu, Wei Sun, Kai Zeng, Jin Zheng, Hui Yang, Lin Wang, Hossein Rahmani, Ajmal Mian

現有的新穎物體6D姿態估計方法通常依賴於CAD模型或密集的參考視圖，這兩者都難以獲取。僅使用單一參考視圖更具可擴展性，但由於姿態差異大且幾何和空間信息有限，這也帶來了挑戰。為了解決這些問題，我們提出了一種基於單一參考視圖的新穎物體6D姿態估計方法（SinRef-6D）。我們的核心思想是基於狀態空間模型（SSMs）在相機坐標系中迭代建立點對點對齊。具體而言，迭代的相機空間點對點對齊能有效處理大姿態差異，而我們提出的RGB和點雲SSMs能從單一視圖中捕捉長程依賴和空間信息，提供線性複雜度和優越的空間建模能力。一旦在合成數據上預訓練完成，SinRef-6D僅需單一參考視圖即可估計新穎物體的6D姿態，無需重新訓練或CAD模型。在六個流行數據集和真實世界機器人場景上的廣泛實驗表明，儘管在更具挑戰性的單一參考設置下運行，我們仍能達到與基於CAD和密集參考視圖方法相當的性能。代碼將發佈於https://github.com/CNJianLiu/SinRef-6D。

REF-VLM：基於三元組的指代範式，實現統一視覺解碼
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding

Mar 10

ByYan Tai, Luhao Zhu, Zhiqiang Chen, Ynan Ding, Yiying Dong, Xiaohong Liu, Guodong Guo

多模态大型語言模型（MLLMs）在經過大規模數據集訓練後，展現出在各種視覺-語言任務中的強大零樣本能力。然而，對於僅以文本輸出表示的密集預測任務（如語義分割和關鍵點檢測），MLLMs面臨著顯著的挑戰。同時，當前利用潛在嵌入進行視覺任務解碼的MLLMs通常表現出在多任務學習和多粒度場景中的適應性有限。在本研究中，我們提出了REF-VLM，這是一個用於統一訓練各種視覺解碼任務的端到端框架。為應對複雜的視覺解碼場景，我們引入了基於三元組的參考範式（TRP），該範式通過三元組結構明確解耦視覺解碼任務中的三個關鍵維度：概念、解碼類型和目標。TRP採用符號分隔符來強制結構化表示學習，增強模型輸出的可解析性和可解釋性。此外，我們構建了視覺任務指令跟隨數據集（VTInstruct），這是一個包含超過1億個多模態對話樣本、涵蓋25種任務類型的大規模多任務數據集。除了文本輸入和輸出，VT-Instruct還整合了各種視覺提示，如點、框、塗鴉和遮罩，並生成由文本和視覺單元（如框、關鍵點、深度和遮罩）組成的輸出。不同視覺提示和視覺單元的組合產生了多種任務類型，顯著擴展了REF-VLM的適用性。定性和定量實驗均表明，我們的REF-VLM在多種標準基準測試中優於其他MLLMs。代碼、數據集和演示可在https://github.com/MacavityT/REF-VLM獲取。

扩散中的费曼-卡克校正器：退火、引导与专家乘积
Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts

Mar 4

ByMarta Skreta, Tara Akhound-Sadegh, Viktor Ohanesian, Roberto Bondesan, Alán Aspuru-Guzik, Arnaud Doucet, Rob Brekelmans, Alexander Tong, Kirill Neklyudov

儘管基於分數的生成模型在多個領域中成為首選模型，但在控制推理時行為方面，尤其是在以原則性方式組合多個預訓練模型時，可用的工具卻相對有限。現有的無分類器指導方法採用了一種簡單的啟發式方法，通過混合條件與非條件分數來近似採樣條件分佈。然而，此類方法並未近似中間分佈，因此需要額外的“校正”步驟。在本研究中，我們提供了一種高效且基於原則的方法，用於從一系列退火、幾何平均或由預訓練分數模型導出的乘積分佈中進行採樣。我們基於著名的費曼-卡茨公式，通過仔細考慮適當偏微分方程（PDEs）中的項，推導出了一種加權模擬方案，稱之為費曼-卡茨校正器（FKCs）。為了模擬這些PDEs，我們提出了順序蒙特卡羅（SMC）重採樣算法，該算法利用推理時的縮放來提高採樣質量。我們通過提出基於推理時溫度退火的攤銷採樣、利用預訓練模型改進多目標分子生成，以及改進文本到圖像生成的無分類器指導，實證展示了我們方法的實用性。我們的代碼可在https://github.com/martaskrt/fkc-diffusion獲取。

PhiloBERTA：基於Transformer的希臘與拉丁語詞彙跨語言分析
PhiloBERTA: A Transformer-Based Cross-Lingual Analysis of Greek and Latin Lexicons

Mar 7

ByRumi A. Allbert, Makai L. Allbert

我們提出PhiloBERTA，這是一個跨語言的Transformer模型，用於衡量古希臘語與拉丁語詞彙之間的語義關係。透過分析古典文本中的特定詞對，我們利用上下文嵌入和角度相似性度量來識別精確的語義對齊。我們的結果顯示，詞源相關的詞對展現出顯著更高的相似性分數，尤其是在抽象哲學概念如epist\=em\=e（scientia）和dikaiosyn\=e（iustitia）方面。統計分析揭示了這些關係中的一致性模式（p = 0.012），與對照組相比，詞源相關的詞對展現出極為穩定的語義保留。這些發現為研究哲學概念如何在希臘與拉丁傳統之間遷移建立了一個量化框架，為古典語文學研究提供了新的方法。

HumanMM：基於多鏡頭影片的全局人體運動重建
HumanMM: Global Human Motion Recovery from Multi-shot Videos

Mar 10

ByYuhong Zhang, Guanlin Wu, Ling-Hao Chen, Zhuokai Zhao, Jing Lin, Xiaoke Jiang, Jiamin Wu, Zhuoheng Li, Hao Frank Yang, Haoqian Wang, Lei Zhang

本文提出了一種新穎的框架，旨在從包含多個鏡頭轉換的野外視頻中重建世界坐標系下的長序列三維人體運動。這類長序列的野外運動對於動作生成和動作理解等應用具有極高價值，但由於此類視頻中存在的突然鏡頭轉換、部分遮擋和動態背景，其重建面臨巨大挑戰。現有方法主要集中於單一鏡頭視頻，其中連續性在單一攝像機視角內得以保持，或僅在攝像機空間簡化多鏡頭對齊。在本研究中，我們通過整合增強型攝像機姿態估計與人體運動恢復（HMR），並引入鏡頭轉換檢測器和魯棒的對齊模塊，來應對這些挑戰，從而實現跨鏡頭的準確姿態和方向連續性。通過利用定制的運動積分器，我們有效緩解了腳部滑動問題，並確保了人體姿態的時間一致性。在我們從公開的三維人體數據集創建的多鏡頭數據集上進行的廣泛評估，展示了我們方法在世界坐標系下重建真實人體運動的魯棒性。

RePO：基於ReLU的偏好優化
RePO: ReLU-based Preference Optimization

Mar 10

ByJunkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang

對齊大型語言模型（LLMs）與人類偏好對於實際部署至關重要，然而現有方法如RLHF面臨計算和穩定性挑戰。雖然DPO建立了單一超參數beta的離線範式，但後續方法如SimPO通過雙參數（beta, gamma）重新引入了複雜性。我們提出了{基於ReLU的偏好優化（RePO）}，這是一種簡化的算法，通過兩項進展消除了beta：（1）保留SimPO的無參考邊界，但通過梯度分析移除beta；（2）採用基於ReLU的最大邊界損失，自然過濾掉無意義的配對。理論上，RePO被描述為SimPO的極限情況（beta趨於無窮大），其中邏輯加權崩潰為二值閾值，形成0-1損失的凸包。在AlpacaEval 2和Arena-Hard上的實驗結果顯示，RePO在多個基礎模型上均優於DPO和SimPO，僅需調整一個超參數。

符號專家混合模型：面向異質推理的自適應技能導向路由
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning

Mar 7

ByJustin Chih-Yao Chen, Sukwon Yun, Elias Stengel-Eskin, Tianlong Chen, Mohit Bansal

結合現有的預訓練專家大型語言模型（LLMs）是應對大規模且多樣化任務的一條極具前景的途徑。然而，在任務層面選擇專家往往過於粗粒度，因為異質性任務可能對每個實例需要不同的專業知識。為了實現預訓練LLM專家的自適應實例級混合，我們提出了Symbolic-MoE，這是一個符號化、基於文本且無梯度的專家混合框架。Symbolic-MoE採取細粒度選擇方法，強調技能，例如數學中的代數或生物醫學推理中的分子生物學。我們提出了一種基於技能的招募策略，根據專家的優勢動態選擇最相關的專家LLMs集合來處理多樣化的推理任務。每個選定的專家隨後生成其自身的推理，從而產生來自k個專家的k個輸出，這些輸出隨後由一個基於其整合多樣推理輸出能力選擇的聚合器合成為最終的高質量響應。我們展示了Symbolic-MoE的實例級專家選擇大幅提升了性能，但若簡單實現，可能會因需要不斷加載和卸載模型而引入高計算開銷。為解決這一問題，我們實施了一種批量推理策略，根據分配的專家對實例進行分組，每個模型僅加載一次。這使得我們能夠在1個GPU上集成16個專家模型，其時間成本與之前使用4個GPU的多代理基線相當或更優。通過在多樣化基準（MMLU-Pro、GPQA、AIME和MedMCQA）上的廣泛評估，我們證明Symbolic-MoE優於如GPT4o-mini等強力LLMs以及多代理方法，相對於最佳多代理基線的絕對平均提升達8.15%。此外，Symbolic-MoE消除了對昂貴多輪討論的需求，以更少的計算量超越了討論基線。

NeuGrasp：基於背景先驗的通用神經表面重建技術，實現材料無關的物體抓取檢測
NeuGrasp: Generalizable Neural Surface Reconstruction with Background Priors for Material-Agnostic Object Grasp Detection

Mar 5

ByQingyu Fan, Yinghao Cai, Chao Li, Wenzhe He, Xudong Zheng, Tao Lu, Bin Liang, Shuo Wang

在包含透明和鏡面物體的場景中，機器人抓取對於依賴精確深度信息的方法提出了巨大挑戰。本文介紹了NeuGrasp，這是一種利用背景先驗進行材料無關抓取檢測的神經表面重建方法。NeuGrasp整合了變壓器和全局先驗體積，通過空間編碼聚合多視圖特徵，從而在狹窄和稀疏的觀測條件下實現穩健的表面重建。通過殘差特徵增強聚焦前景物體，並利用佔據先驗體積精細化空間感知，NeuGrasp在處理具有透明和鏡面表面的物體方面表現卓越。在模擬和真實場景中的大量實驗表明，NeuGrasp在抓取性能上超越了現有最先進的方法，同時保持了可媲美的重建質量。更多詳情請訪問https://neugrasp.github.io/。

AI研究論文每日精選

每日精選AI研究論文及翻譯

基於稀疏自編碼器的生成文本檢測之特徵層面洞察
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders

Mar 5

ByKristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov

232

SEAP：免訓練的稀疏專家激活修剪釋放大語言模型的智慧潛能
SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models

Mar 10

ByXun Liang, Hanyu Wang, Huayi Lai, Simin Niu, Shichao Song, Jiawei Yang, Jihao Zhao, Feiyu Xiong, Bo Tang, Zhiyu Li

MM-Eureka：基於規則的大規模強化學習探索視覺頓悟時刻
MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

Mar 10

ByFanqing Meng, Lingxiao Du, Zongkai Liu, Zhixiang Zhou, Quanfeng Lu, Daocheng Fu, Botian Shi, Wenhai Wang, Junjun He, Kaipeng Zhang, Ping Luo, Yu Qiao, Qiaosheng Zhang, Wenqi Shao

VACE：全方位影片創作與編輯平台
VACE: All-in-One Video Creation and Editing

Mar 10

ByZeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu

基於多智能體思維鏈規劃的自動電影生成
Automated Movie Generation via Multi-Agent CoT Planning

Mar 10

ByWeijia Wu, Zeyu Zhu, Mike Zheng Shou

筆記帶來專注？邁向多輪多模態對話學習
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning

Mar 10

ByJiazheng Liu, Sipeng Zheng, Börje F. Karlsson, Zongqing Lu

FedRand：透過隨機化LoRA子參數更新提升聯邦學習的隱私保護
FedRand: Enhancing Privacy in Federated Learning with Randomized LoRA Subparameter Updates

Mar 10

BySangwoo Park, Seanie Lee, Byungjoo Kim, Sung Ju Hwang

DistiLLM-2：對比學習方法提升大型語言模型的蒸餾效能
DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs

Mar 10

ByJongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun

Vision-R1：激勵多模態大型語言模型中的推理能力
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Mar 9

ByWenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin

EasyControl：為擴散變換器增添高效靈活的控制能力
EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer

Mar 10

ByYuxuan Zhang, Yirui Yuan, Yiren Song, Haofan Wang, Jiaming Liu

超越RAG：面向全面知识推理的任务感知KV缓存压缩
Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning

Mar 6

ByGiulio Corallo, Orion Weller, Fabio Petroni, Paolo Papotti

AlphaDrive：透過強化學習與推理釋放視覺語言模型在自動駕駛中的潛能
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

Mar 10

ByBo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang

WritingBench：生成式寫作的綜合基準測試平台
WritingBench: A Comprehensive Benchmark for Generative Writing

Mar 7

ByYuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, SHaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, Fei Huang

代理模型：將行動鏈生成內化至推理模型中
Agent models: Internalizing Chain-of-Action Generation into Reasoning models

Mar 9

ByYuxiang Zhang, Yuqi Yang, Jiangming Shu, Xinyan Wen, Jitao Sang

FEA-Bench：一個用於評估倉庫級代碼生成在功能實現中的基準測試
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation

Mar 9

ByWei Li, Xin Zhang, Zhongxin Guo, Shaoguang Mao, Wen Luo, Guangyue Peng, Yangyu Huang, Houfeng Wang, Scarlett Li

SurveyForge：論自動化問卷撰寫中的大綱啟發式、記憶驅動生成與多維度評估
SurveyForge: On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing

Mar 6

ByXiangchao Yan, Shiyang Feng, Jiakang Yuan, Renqiu Xia, Bin Wang, Bo Zhang, Lei Bai

MedAgentsBench：針對複雜醫療推理的思維模型與代理框架基準測試
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

Mar 10

ByXiangru Tang, Daniel Shao, Jiwoong Sohn, Jiapeng Chen, Jiayi Zhang, Jinyu Xiang, Fang Wu, Yilun Zhao, Chenglin Wu, Wenqi Shi, Arman Cohan, Mark Gerstein