AI研究論文每日精選

每日精選AI研究論文及翻譯

VideoGrain：調控時空注意力以實現多粒度影片編輯
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Feb 24, 2025

Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang

795

近期擴散模型的進展顯著提升了視頻生成與編輯的能力。然而，多粒度視頻編輯——涵蓋類別層次、實例層次及部分層次的修改——仍是一項艱巨的挑戰。多粒度編輯的主要難題包括文本到區域控制的語義對齊失準以及擴散模型內部的特徵耦合問題。為解決這些難題，我們提出了VideoGrain，一種零樣本方法，通過調節時空（交叉與自）注意力機制來實現對視頻內容的細粒度控制。我們通過在交叉注意力中增強每個局部提示對應空間解耦區域的關注，同時最小化與無關區域的交互，從而提升了文本到區域的控制。此外，我們通過在自注意力中增加區域內部的感知並減少區域間的干擾，改善了特徵分離。大量實驗證明，我們的方法在現實場景中達到了最先進的性能。我們的代碼、數據及演示可在https://knightyxp.github.io/VideoGrain_project_page/獲取。

如是说长上下文大语言模型
Thus Spake Long-Context Large Language Model

Feb 24, 2025

Xiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu

736

長上下文是自然語言處理（NLP）中的一個重要主題，貫穿於NLP架構的發展歷程，並為大型語言模型（LLMs）提供了巨大的機會，使其具備類似人類的終身學習潛力。然而，追求長上下文伴隨著諸多挑戰。儘管如此，長上下文仍然是LLMs的核心競爭優勢。在過去兩年中，LLMs的上下文長度已實現了突破性擴展，達到數百萬個token。此外，長上下文LLMs的研究已從長度外推擴展到對架構、基礎設施、訓練和評估技術的全面關注。受交響詩《查拉圖斯特拉如是說》的啟發，我們將LLM擴展上下文的旅程與人類超越自身有限性的嘗試進行類比。在本調查中，我們將闡述LLM如何在對更長上下文的巨大需求與接受其終究有限的事實之間掙扎。為此，我們從架構、基礎設施、訓練和評估四個角度，全面描繪長上下文LLMs的生命週期，展示長上下文技術的全貌。在本調查的結尾，我們將提出目前長上下文LLMs面臨的十個未解之題。我們希望這份調查能作為長上下文LLMs研究的系統性介紹。

猛擊：在單張GPU上一天內訓練一個語音語言模型
Slamming: Training a Speech Language Model on One GPU in a Day

Feb 19, 2025

Gallil Maimon, Avishai Elmakies, Yossi Adi

702

我們介紹了Slam，這是一種在單塊學術級GPU上24小時內訓練高質量語音語言模型（SLMs）的方案。我們通過對模型初始化與架構、合成訓練數據、基於合成數據的偏好優化以及所有其他組件的微調進行實證分析來實現這一目標。我們實證表明，這一訓練方案在更多計算資源下也能良好擴展，以遠低於領先SLMs的計算成本獲得相當的結果。我們希望這些洞見能使SLM訓練與研究更加普及。在SLM規模定律的背景下，我們的結果遠超預期的計算最優性能，為SLM的可行性提供了樂觀的展望。代碼、數據、模型及樣本請見：https://pages.cs.huji.ac.il/adiyoss-lab/slamming。

DICEPTION：一款適用於視覺感知任務的通用擴散模型
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

Feb 24, 2025

Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen

533

我們的主要目標是創建一個優秀的通用感知模型，能夠在計算資源和訓練數據有限的情況下處理多種任務。為實現這一目標，我們採用了基於數十億圖像預訓練的文本到圖像擴散模型。我們全面的評估指標表明，DICEPTION 能有效應對多種感知任務，其性能可與最先進的模型相媲美。我們僅使用 SAM-vit-h 0.06% 的數據（例如，60萬對比10億像素級註釋圖像）便達到了與之相當的結果。受 Wang 等人的啟發，DICEPTION 採用色彩編碼來表達各種感知任務的輸出；我們展示了為不同實例隨機分配顏色的策略在實體分割和語義分割中極為有效。將多種感知任務統一為條件圖像生成，使我們能夠充分利用預訓練的文本到圖像模型。因此，與從頭訓練的傳統模型相比，DICEPTION 能以低數個數量級的成本高效訓練。當將我們的模型適應於其他任務時，僅需對少至50張圖像和1%的參數進行微調。DICEPTION 為視覺通用模型提供了寶貴的見解和更具前景的解決方案。

Audio-FLAN：初步版本發布
Audio-FLAN: A Preliminary Release

Feb 23, 2025

Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue

372

近期音訊標記化技術的進步，顯著提升了大型語言模型（LLMs）整合音訊能力的效果。然而，音訊理解與生成往往被視為獨立的任務，這阻礙了真正統一的音訊語言模型的發展。雖然指令微調在提升文本與視覺領域的泛化能力和零樣本學習方面展現了顯著成效，但其在音訊領域的應用仍大多未被探索。一個主要障礙是缺乏統合音訊理解與生成的全面數據集。為此，我們推出了Audio-FLAN，這是一個大規模的指令微調數據集，涵蓋語音、音樂及聲音領域的80多種多樣任務，包含超過一億個實例。Audio-FLAN為統一的音訊語言模型奠定了基礎，這些模型能夠以零樣本的方式，無縫處理跨多種音訊領域的理解（如轉錄、理解）與生成（如語音、音樂、聲音）任務。Audio-FLAN數據集現已於HuggingFace與GitHub上開放，並將持續更新。

讓LoRA再次偉大：透過自適應奇異值與專家混合優化對齊來提升LoRA效能
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Feb 24, 2025

Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng

314

儘管低秩適應（LoRA）實現了大型語言模型（LLMs）的參數高效微調，但其性能往往不及全量微調（Full FT）。現有方法通過初始化靜態奇異值分解（SVD）子集來優化LoRA，導致對預訓練知識的利用未達最佳。另一條提升LoRA的途徑是引入專家混合（MoE）架構。然而，權重不對齊和複雜的梯度動態使得在LoRA MoE架構之前採用SVD面臨挑戰。為解決這些問題，我們提出了GOAT（Great LoRA Mixture-of-Expert）框架，該框架（1）利用SVD結構化的MoE自適應地整合相關先驗知識，（2）通過推導理論縮放因子，使優化與全量微調的MoE對齊。我們證明，在不改變架構或訓練算法的情況下，適當的縮放顯著提升了LoRA MoE的效率和性能。在包括自然語言理解、常識推理、圖像分類和自然語言生成在內的25個數據集上的實驗表明，GOAT實現了頂尖性能，縮小了與Full FT的差距。

GCC：基於色彩校準板擴散的生成式色彩恆常性
GCC: Generative Color Constancy via Diffusing a Color Checker

Feb 24, 2025

Chen-Wei Chang, Cheng-De Fan, Chia-Che Chang, Yi-Chen Lo, Yu-Chee Tseng, Jiun-Long Huang, Yu-Lun Liu

282

色彩恒常性方法常因不同相機傳感器的光譜靈敏度差異而難以實現跨設備的泛化。我們提出了GCC，該方法利用擴散模型將色卡修補至圖像中以進行光照估計。我們的核心創新包括：(1) 一種單步確定性推理方法，修補出反映場景光照的色卡；(2) 一種拉普拉斯分解技術，在保持色卡結構的同時允許依賴於光照的色彩適應；(3) 一種基於遮罩的數據增強策略，用於處理不精確的色卡標註。GCC在跨相機場景中展現了卓越的魯棒性，在雙向評估中達到了5.15°和4.32°的頂尖最差25%誤差率。這些結果凸顯了我們方法在不同相機特性下的穩定性和泛化能力，無需針對特定傳感器進行訓練，使其成為現實應用的通用解決方案。

CodeCriticBench：一個面向大型語言模型的全面性程式碼評測基準
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Feb 23, 2025

Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang

273

大型語言模型（LLMs）的批判能力對於其推理能力至關重要，這能提供必要的建議（例如詳細分析和建設性反饋）。因此，如何評估LLMs的批判能力引起了極大關注，並已提出了多個批判基準。然而，現有的批判基準通常存在以下限制：(1) 主要關注一般領域的多樣化推理任務，對代碼任務的評估不足（例如僅涵蓋代碼生成任務），且查詢的難度相對較低（例如CriticBench的代碼查詢來自Humaneval和MBPP）。(2) 缺乏從不同維度進行的全面評估。為解決這些限制，我們引入了一個全面的代碼批判基準，稱為CodeCriticBench。具體而言，我們的CodeCriticBench包含兩大主流代碼任務（即代碼生成和代碼問答），並涵蓋不同難度。此外，評估協議包括基本批判評估和高級批判評估，針對不同特性設計了細緻的評估清單，用於高級設置。最後，我們對現有LLMs進行了廣泛的實驗，結果顯示了CodeCriticBench的有效性。

數學推理中測試時縮放的語言通用性
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

Feb 24, 2025

Guijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne

262

擴大預訓練計算量已被證明對實現多語言能力有效，但同樣的方法在測試時擴展是否也適用？在本研究中，我們引入了MCLM，這是一個包含55種語言競賽級數學題目的多語言數學基準。我們在Qwen2.5-1.5B Math和我們為擴展推理訓練的多語言大語言模型MR1-1.5B上測試了三種測試時擴展方法——結果獎勵建模（ORM）、過程獎勵建模（PRM）以及預算強制（BF）。實驗結果顯示，使用Qwen2.5-1.5B Math搭配ORM在MCLM上獲得了35.8分，而MR1-1.5B搭配BF則達到了35.2分。儘管“思考型大語言模型”近期獲得了大量關注，但我們發現，當推理FLOPs被限制在相似水平時，其表現與傳統的擴展方法如best-of-N相當。此外，雖然BF在英語AIME上帶來了20分的提升，但在其他語言上僅平均提升了1.94分——這一模式在我們研究的其他測試時擴展方法中也保持一致——這表明測試時擴展可能無法同樣有效地泛化到多語言任務上。為了促進進一步研究，我們公開了MCLM、MR1-1.5B以及評估結果。

RIFLEx：視頻擴散Transformer中長度外推的免費午餐
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

Feb 21, 2025

Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu

203

近期在視頻生成領域的進展，已使模型能夠合成高品質、長達一分鐘的視頻。然而，生成更長且具有時間連貫性的視頻仍是一大挑戰，現有的長度外推方法往往導致時間重複或運動減速。在本研究中，我們系統性地分析了位置嵌入中頻率成分的作用，並識別出一個主要控制外推行為的固有頻率。基於這一洞察，我們提出了RIFLEx，這是一種簡潔而有效的方法，它通過降低固有頻率來抑制重複，同時保持運動一致性，且無需任何額外修改。RIFLEx提供了一種真正的“免費午餐”——在最先進的視頻擴散變壓器上，以完全無需訓練的方式實現了高質量的2倍外推。此外，通過極少量的微調，無需長視頻，它還提升了質量並實現了3倍外推。項目頁面及代碼： https://riflex-video.github.io/

Stable-SPAM：如何在4位元訓練中比16位元Adam更穩定
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam

Feb 24, 2025

Tianjin Huang, Haotian Hu, Zhenyu Zhang, Gaojie Jin, Xiang Li, Li Shen, Tianlong Chen, Lu Liu, Qingsong Wen, Zhangyang Wang, Shiwei Liu

182

本文全面評估了近期提出的多種用於4位元訓練的優化器，揭示了低精度會放大對學習率的敏感性，並經常導致梯度範數不穩定，從而在較高學習率下引發發散。其中，SPAM作為一款新近的優化器，具備動量重置和尖峰感知梯度裁剪功能，在各類位元水平上表現最佳，但在穩定梯度範數方面仍有困難，需要精細調整學習率。針對這些限制，我們提出了Stable-SPAM，它融合了增強型梯度歸一化與裁剪技術。具體而言，Stable-SPAM（1）通過追蹤歷史最大值自適應更新尖峰梯度的裁剪閾值；（2）基於梯度矩陣的歷史l_2範數統計進行整體歸一化；（3）繼承SPAM的動量重置機制，定期重置Adam的第一和第二動量，以減緩尖峰梯度的累積。大量實驗表明，Stable-SPAM在4位元大語言模型訓練中有效穩定了梯度範數，相較於Adam和SPAM展現出更優的性能。值得注意的是，使用Stable-SPAM訓練的4位元LLaMA-1B模型，其困惑度比採用Adam訓練的BF16 LLaMA-1B模型最多降低了2。此外，當兩者均在4位元下訓練時，Stable-SPAM在達到與Adam相同損失的同時，僅需約一半的訓練步數。程式碼已公開於https://github.com/TianjinYellow/StableSPAM.git。

多模態不一致性推理（MMIR）：多模態推理模型的新基準
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models

Feb 22, 2025

Qianqi Yan, Yue Fan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang

182

現有的多模態大型語言模型（MLLMs）主要是在視覺與文本一致的輸入上進行訓練和測試，這使得它們能否處理現實世界中佈局豐富內容的不一致性成為一個開放性問題。為彌補這一差距，我們提出了多模態不一致性推理（MMIR）基準，以評估MLLMs在檢測和推理網頁、演示文稿和海報等人工製品中語義不匹配的能力。MMIR包含534個具有挑戰性的樣本，每個樣本在五個推理密集的類別中人工注入了錯誤：事實矛盾、身份誤認、上下文不匹配、數量差異以及時空不一致。我們評估了六種最先進的MLLMs，結果顯示，具備專門多模態推理能力的模型（如o1）顯著優於其他模型，而開源模型尤其容易受到不一致性錯誤的影響。詳細的錯誤分析進一步表明，模型在檢測單一模態（特別是文本）內的不一致性方面表現出色，但在處理跨模態衝突和複雜佈局時則顯得力不從心。探針實驗揭示，單模態提示方法，包括思維鏈（CoT）和標記集（SoM）方法，僅帶來邊際效益，這揭示了跨模態推理中的一個關鍵瓶頸。我們的研究結果強調了對先進多模態推理的需求，並為未來關於多模態不一致性的研究指明瞭方向。

超越发布：生成式AI系统的访问考量
Beyond Release: Access Considerations for Generative AI Systems

Feb 23, 2025

Irene Solaiman, Rishi Bommasani, Dan Hendrycks, Ariel Herbert-Voss, Yacine Jernite, Aviya Skowron, Andrew Trask

164

生成式AI的發佈決策決定了系統組件是否對外開放，但發佈本身並未觸及許多其他影響用戶和利益相關者如何與系統互動的要素。在發佈之外，對系統組件的接觸程度揭示了潛在的風險與收益。所謂接觸，指的是在實踐層面，無論是基礎設施、技術還是社會層面，為了以某種方式使用可用組件所需滿足的條件。我們從三個維度解構接觸：資源配置、技術可用性及實用性。在每個類別中，針對每個系統組件的一系列變量闡明了權衡點。例如，資源配置需要接觸到計算基礎設施以提供模型權重。我們還比較了四種高性能語言模型的接觸難易度，其中兩種為開放權重，兩種為封閉權重，顯示出基於接觸變量，所有模型都有相似的考量因素。接觸變量為擴大或增加用戶接觸奠定了基礎；我們探討了接觸的規模以及規模如何影響管理和干預風險的能力。這一框架更全面地涵蓋了系統發佈的全局及風險收益權衡，為系統發佈決策、研究及政策制定提供了參考。

移动代理-V：通过视频引导的多代理协作学习移动设备操作
Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration

Feb 24, 2025

Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang

132

隨著移動設備使用量的快速增長，提升自動化水平以實現無縫任務管理變得至關重要。然而，許多基於人工智慧的框架因操作知識不足而面臨挑戰。手動編寫的知識雖有幫助，但耗時且效率低下。為應對這些挑戰，我們推出了Mobile-Agent-V框架，該框架利用視頻指導提供豐富且成本效益高的操作知識，從而增強移動自動化能力。Mobile-Agent-V通過利用視頻輸入來提升任務執行能力，無需專門的採樣或預處理。該框架整合了滑動窗口策略，並引入了視頻代理和深度反思代理，以確保操作與用戶指令保持一致。通過這一創新方法，用戶可以在指導下記錄任務流程，使系統能夠自主學習並高效執行任務。實驗結果表明，Mobile-Agent-V相比現有框架實現了30%的性能提升。

反思式規劃：視覺語言模型在多階段長程機器人操作中的應用
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

Feb 23, 2025

Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo

132

解決複雜的長期機器人操作問題，需要具備高階規劃能力、對物理世界的理解能力，以及能夠反應性地選擇適當的運動技能。基於互聯網數據預訓練的視覺-語言模型（VLMs）原則上可以提供一個解決此類問題的框架。然而，目前形式的VLMs既缺乏對機器人操作所需的細緻物理理解，也無法進行長期推理以應對錯誤累積的問題。本文提出了一種新穎的測試時計算框架，該框架增強了VLMs在多階段操作任務中的物理推理能力。我們方法的核心是通過「反思」機制迭代改進預訓練的VLM——利用生成模型預測未來的世界狀態，並基於這些預測來指導動作選擇，同時關鍵性地反思潛在的次優性以精煉其推理。實驗結果表明，我們的方法在多個最先進的商業VLMs以及其他後訓練方法（如蒙特卡洛樹搜索，MCTS）中表現顯著優異。相關視頻可在https://reflect-vlm.github.io查看。

X-Dancer：從表達性音樂生成人體舞蹈影片
X-Dancer: Expressive Music to Human Dance Video Generation

Feb 24, 2025

Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo

123

我們提出X-Dancer，這是一種新穎的零樣本音樂驅動圖像動畫流程，能夠從單張靜態圖像生成多樣化且長距離的逼真人類舞蹈視頻。其核心在於引入了一個統一的Transformer-擴散框架，該框架包含一個自回歸Transformer模型，用於合成與音樂同步的二維身體、頭部和手部姿勢的擴展標記序列，這些序列隨後引導擴散模型生成連貫且逼真的舞蹈視頻幀。與傳統主要生成三維人體運動的方法不同，X-Dancer通過建模廣泛的二維舞蹈動作，捕捉其與音樂節拍的細微對齊，來應對數據限制並提升可擴展性，這一切基於易獲取的單目視頻。為實現這一點，我們首先從帶有關鍵點置信度的二維人體姿勢標籤中構建空間組合的標記表示，編碼了大幅度的關節身體運動（如上身和下身）以及細微動作（如頭部和手部）。接著，我們設計了一個音樂到動作的Transformer模型，該模型自回歸地生成與音樂對齊的舞蹈姿勢標記序列，並結合了對音樂風格和先前動作上下文的全局注意力。最後，我們利用擴散骨架，通過AdaIN技術將這些合成的姿勢標記應用於參考圖像的動畫化，形成了一個完全可微分的端到端框架。實驗結果表明，X-Dancer能夠生成既多樣化又具特色的舞蹈視頻，在多樣性、表現力和真實感方面大幅超越現有最先進的方法。代碼和模型將供研究用途公開。

基於實證的勸說性語言生成在自動化行銷中的應用
Grounded Persuasive Language Generation for Automated Marketing

Feb 24, 2025

Jibang Wu, Chenghao Yang, Simon Mahns, Chaoqi Wang, Hao Zhu, Fei Fang, Haifeng Xu

123

本文開發了一個基於大型語言模型（LLMs）的代理框架，旨在自動生成具有說服力且基於事實的營銷內容，並以房地產列表描述作為主要應用領域。我們的方法旨在使生成的內容與用戶偏好保持一致，同時突出有用的實際屬性。該代理由三個關鍵模塊組成：（1）基礎模塊，模仿專家行為以預測具有市場價值的特徵；（2）個性化模塊，使內容與用戶偏好對齊；（3）營銷模塊，確保事實準確性並包含本地化特徵。我們在房地產營銷領域進行了系統性的人體實驗，目標群體為潛在購房者。結果表明，與人類專家撰寫的營銷描述相比，我們方法生成的描述明顯更受青睞。我們的研究結果表明，這一基於LLM的代理框架在自動化大規模定向營銷方面具有潛力，同時確保僅基於事實的負責任生成。

預測Hugging Face上開源AI模型的成長趨勢
Forecasting Open-Weight AI Model Growth on Hugging Face

Feb 21, 2025

Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao

103

隨著開放權重人工智慧領域的持續擴展——包括模型開發、重大投資及用戶興趣的增長——預測哪些模型最終將推動創新並塑造AI生態系統變得日益重要。基於與科學文獻引用動態的相似性，我們提出了一個框架來量化開放權重模型影響力的演變。具體而言，我們採用了Wang等人針對科學引用提出的模型，利用三個關鍵參數——即時性、持久性和相對適應性——來追蹤一個開放權重模型的微調模型累積數量。我們的研究發現表明，這種引用風格的方法能有效捕捉開放權重模型採用的多樣化軌跡，大多數模型都能很好地擬合，而異常值則揭示了使用中的獨特模式或突然躍升。

TAG：一個去中心化的多智能體分層強化學習框架
TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning

Feb 21, 2025

Giuseppe Paolo, Abdelhakim Benechehab, Hamza Cherkaoui, Albert Thomas, Balázs Kégl

層級化組織是生物系統與人類社會的基礎，然而人工智慧系統往往依賴於單一架構，這限制了其適應性和可擴展性。當前的層級強化學習（HRL）方法通常將層級限制在兩層或需要集中式訓練，從而限制了其實際應用性。我們提出了TAME Agent Framework (TAG)，這是一個用於構建完全去中心化的層級多代理系統的框架。TAG通過創新的LevelEnv概念，使得任意深度的層級結構成為可能，該概念將每個層級抽象為其上層代理的環境。這種方法在保持鬆散耦合的同時，標準化了層級間的信息流，從而實現了多樣化代理類型的無縫整合。我們通過在標準基準測試中實現結合不同層級強化學習代理的層級架構，展示了TAG的有效性，並在性能上超越了傳統的多代理強化學習基線。我們的結果表明，去中心化的層級組織不僅提升了學習速度，也提高了最終性能，這使得TAG成為可擴展多代理系統的一個有前景的方向。

跨朝代時序推理與對齊基準測試
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

Feb 24, 2025

Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou

時間推理是人類認知的基礎，對於各種現實世界的應用至關重要。儘管大型語言模型的最新進展在時間推理方面展現了令人期待的能力，但現有的基準主要依賴於基於規則的構建，缺乏上下文深度，並且涉及的時間實體範圍有限。為了解決這些限制，我們引入了中國時間推理（CTM），這是一個旨在評估大型語言模型在中國朝代年表廣泛範圍內進行時間推理的基準。CTM強調跨實體關係、成對時間對齊以及情境化和文化基礎的推理，提供了全面的評估。大量的實驗結果揭示了CTM帶來的挑戰，並指出了潛在的改進方向。

InductionBench：大型語言模型在最簡單的複雜度類別中表現不佳
InductionBench: LLMs Fail in the Simplest Complexity Class

Feb 20, 2025

Wenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang

大型語言模型（LLMs）在推理能力上展現了顯著的進步，許多現有的基準測試已被如o1和o3等模型完全或部分解決。然而，這些基準測試大多側重於演繹推理，包括數學和編程任務，其中數學公理或編程語法等規則被明確定義，基於這些規則，LLMs能夠規劃並應用這些規則來得出解決方案。相比之下，歸納推理——即從觀察到的數據中推斷出潛在規則——則較少被探索。這種歸納過程是科學發現的核心，因為它使研究人員能夠從經驗觀察中提取一般原則。為了評估LLMs是否具備這種能力，我們引入了InductionBench，這是一個旨在評估LLMs歸納推理能力的新基準。我們的實驗結果顯示，即使是最先進的模型，在函數次正規層次結構中最簡單的複雜度類別中也難以掌握，這凸顯了當前LLMs在歸納推理能力上的顯著不足。相關代碼和數據可在https://github.com/Wenyueh/inductive_reasoning_benchmark獲取。

探討量化方法對大型語言模型安全性與可靠性的影響
Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models

Feb 18, 2025

Artyom Kharinaev, Viktor Moskvoretskii, Egor Shvetsov, Kseniia Studenikina, Bykov Mikhail, Evgeny Burnaev

大型語言模型（LLMs）已成為應對現代挑戰並實現實際應用的強大工具。然而，其高昂的計算成本仍是廣泛採用的主要障礙。量化技術作為一種有前景的方法，旨在普及這些模型的應用並支持低資源設備的部署。儘管取得了這些進展，量化模型的安全性和可信度仍未被充分探討，因為先前的研究往往忽視了當代架構，並依賴過於簡化的基準和評估方法。為填補這一空白，我們引入了OpenSafetyMini，這是一個新穎的開放式安全數據集，旨在更好地區分不同模型。我們使用四個基準（包括人工評估）對LLaMA和Mistral模型上的四種最先進的量化技術進行了評估。我們的研究結果表明，在4位精度下，最佳量化方法因模型而異，而在2位精度下，向量量化技術提供了最佳的安全性和可信度表現，為未來研究奠定了基礎。

Pandora3D：高品質3D形狀與紋理生成的綜合框架
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

Feb 20, 2025

Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji

本報告提出了一個全面的框架，用於從多樣化的輸入提示（包括單張圖像、多視角圖像及文本描述）生成高品質的3D形狀與紋理。該框架涵蓋了3D形狀生成與紋理生成兩大部分。(1) 3D形狀生成流程採用變分自編碼器（VAE）將隱式3D幾何編碼至潛在空間，並利用擴散網絡根據輸入提示生成潛在變量，同時通過改進提升模型能力。此外，還探索了一種藝術家創建網格（AM）的生成方法，在處理較為簡單的幾何形狀時展現出良好前景。(2) 紋理生成則是一個多階段過程，始於正面圖像的生成，繼而進行多視角圖像生成、RGB到PBR紋理轉換，以及高分辨率多視角紋理精細化處理。每一階段均嵌入了一致性調度器，以在推理過程中強制多視角紋理間的像素級一致性，確保無縫整合。該流程展現了對多種輸入格式的有效處理能力，利用先進的神經網絡架構與創新方法，產出高品質的3D內容。本報告詳細闡述了系統架構、實驗結果，以及未來改進與擴展框架的潛在方向。源代碼及預訓練權重已發佈於：https://github.com/Tencent/Tencent-XR-3DGen。

社群筆記能否取代專業事實查核員？
Can Community Notes Replace Professional Fact-Checkers?

Feb 19, 2025

Nadav Borenstein, Greta Warren, Desmond Elliott, Isabelle Augenstein

為應對社交媒體上錯誤信息的蔓延，兩種常用策略是：(i) 專業機構的事實核查，以及 (ii) 平台用戶的社群審核。Twitter/X 以及近期 Meta 的政策變更，顯示出從與事實核查機構的合作轉向更加依賴群眾外包的社群筆記。然而，事實核查與有益的社群筆記之間的依賴程度和性質仍不明確。為解答這些問題，我們使用語言模型對大量 Twitter/X 社群筆記進行註釋，標記其主題、引用來源，以及是否反駁了與更廣泛錯誤信息敘述相關的聲明。我們的分析顯示，社群筆記引用事實核查來源的頻率比先前報告的高出五倍之多。對於與更廣泛敘述相關的貼文，其社群筆記引用事實核查來源的可能性是其他來源的兩倍，顯示事實核查在此尤為關鍵。總之，我們的研究結果表明，成功的社群審核在很大程度上依賴於專業的事實核查。

MutaGReP：基於程式庫的免執行計畫搜尋技術於程式碼使用
MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use

Feb 21, 2025

Zaid Khan, Ali Farhadi, Ranjay Krishna, Luca Weihs, Mohit Bansal, Tanmay Gupta

當人類要求大型語言模型（LLM）利用大型程式碼庫中的功能來完成編碼任務時，我們該如何從程式庫中提供上下文給LLM？一種方法是將整個程式庫加入LLM的上下文視窗。然而，大多數任務僅涉及程式庫中的一小部分符號，過長的上下文會損害LLM的推理能力，且上下文視窗並非無限。另一種方法是模擬人類在大型程式庫中導航、挑選正確功能並制定解決任務計劃的能力。我們提出了MutaGReP（變異引導的程式庫計劃搜索），這是一種搜索計劃的方法，將用戶請求分解為基於程式庫的自然語言步驟。MutaGReP在計劃空間中進行神經樹搜索，通過變異計劃並使用符號檢索器進行基礎探索。在具有挑戰性的LongCodeArena基準測試中，我們的計劃僅使用了GPT-4o 128K上下文視窗的不到5%，但其編碼性能卻與填滿程式庫上下文的GPT-4o相當。MutaGReP生成的計劃使Qwen 2.5 Coder 32B和72B能夠與具有完整程式庫上下文的GPT-4o性能相匹配，並在最困難的LongCodeArena任務上取得進展。項目頁面：zaidkhan.me/MutaGReP

留意差距！大型音頻模型的靜態與互動式評估
Mind the Gap! Static and Interactive Evaluations of Large Audio Models

Feb 21, 2025

Minzhi Li, William Barr Held, Michael J Ryan, Kunat Pipatanakul, Potsawee Manakul, Hao Zhu, Diyi Yang

隨著AI聊天機器人日益普及，語音互動提供了一種引人注目的方式，能夠實現快速、高頻寬的溝通，無論是語義還是社交信號的傳遞。這推動了大型音頻模型（LAMs）的研究，以驅動原生語音體驗。然而，要使LAM的發展與用戶目標保持一致，需要清晰地理解用戶需求與偏好，從而建立可靠的進展評估指標。本研究透過引入一種互動式方法來評估LAM，並從484名參與者中收集了7,500次LAM互動，來應對這些挑戰。透過對用戶查詢的主題建模，我們識別出音頻介面的主要使用場景。接著，我們分析用戶偏好排名與質性反饋，以確定哪些模型最符合用戶需求。最後，我們評估靜態基準測試如何預測互動表現——我們的分析顯示，沒有任何單一基準測試與互動結果有強烈相關性（所有基準測試的tau ≤ 0.33）。雖然結合多個粗粒度特徵能帶來一定的預測能力（R^2=0.30），但在二十個關於口語問答與年齡預測的數據集中，僅有兩個顯示出顯著的正相關。這表明，開發更能反映用戶偏好的LAM評估方法具有明確的必要性。

早期退出與即時置信度翻譯品質評估
Early-Exit and Instant Confidence Translation Quality Estimation

Feb 20, 2025

Vilém Zouhar, Maike Züfle, Beni Egressy, Julius Cheng, Jan Niehues

品質評估在機器翻譯中無處不在，無論是對於評估還是生成皆然。然而，品質評估模型往往既晦澀難懂又計算成本高昂，這使得它們難以融入大規模的處理流程中。在本研究中，我們著手解決兩個相互關聯的挑戰：(1) 降低大規模品質評估的成本，以及 (2) 開發一種成本低廉的品質評估不確定性估計方法。針對後者，我們引入了即時信心COMET，這是一個具備不確定性感知能力的品質評估模型，它以極低的成本達到了先前方法的性能水平。我們進一步將其擴展為早期退出COMET，這是一種能在模型早期層次就計算品質分數及相關置信度的品質評估模型，從而允許我們提前終止計算，降低評估成本。我們還將此模型應用於機器翻譯的重排序任務中。通過將早期退出COMET與上置信界帶狀算法結合，我們能夠在不對所有候選者運行完整評估模型的情況下，從大量候選中找出最佳選項。無論是在評估還是重排序的場景下，我們的方法都將所需的計算量減少了50%，而性能僅有極小幅度的下降。

MegaLoc：一检索定位全場景
MegaLoc: One Retrieval to Place Them All

Feb 24, 2025

Gabriele Berton, Carlo Masone

從與給定查詢相同的位置檢索影像是多項計算機視覺任務的重要組成部分，例如視覺地點識別、地標檢索、視覺定位、三維重建以及同步定位與地圖構建（SLAM）。然而，現有的解決方案通常專為其中某一任務設計，當需求稍有變化或遇到分佈外數據時，這些方法往往表現不佳。本文中，我們綜合了多種現有方法、訓練技術和數據集，訓練了一個名為MegaLoc的檢索模型，該模型在多項任務上均表現出色。我們發現，MegaLoc（1）在多個視覺地點識別數據集上達到了最先進水平，（2）在常見的地標檢索數據集上取得了令人印象深刻的結果，以及（3）在LaMAR數據集的視覺定位任務中，僅通過將現有定位流程中的檢索方法替換為MegaLoc，便創下了新的最佳記錄。MegaLoc的代碼已公開於https://github.com/gmberton/MegaLoc。

自學式長上下文理解代理
Self-Taught Agentic Long Context Understanding

Feb 21, 2025

Yufan Zhuang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Jingbo Shang, Zicheng Liu, Emad Barsoum

回答複雜且長上下文問題對於大型語言模型（LLMs）來說仍是一大挑戰，因為這需要有效的問題澄清與上下文檢索。我們提出了「代理式長上下文理解」（Agentic Long-Context Understanding, AgenticLU），這是一個旨在通過在代理工作流程中整合針對性的自我澄清與上下文基礎來增強LLM對此類查詢理解的框架。AgenticLU的核心是「澄清鏈」（Chain-of-Clarifications, CoC），在此過程中，模型通過自我生成的澄清問題及相應的上下文基礎來精煉其理解。通過將推理擴展為樹狀搜索，其中每個節點代表一個CoC步驟，我們在NarrativeQA上達到了97.8%的答案召回率，搜索深度最多為三層，分支因子為八。為了將這一高成本的搜索過程分攤到訓練中，我們利用CoC工作流程獲得的每一步偏好對，並進行兩階段模型微調：（1）監督式微調以學習有效的分解策略，（2）直接偏好優化以提升推理質量。這使得AgenticLU模型能夠在單次推理過程中有效且高效地生成澄清並檢索相關上下文。在七個長上下文任務上的廣泛實驗表明，AgenticLU顯著優於最先進的提示方法和專用的長上下文LLM，實現了強大的多跳推理，同時在上下文長度增長時保持一致的性能。

MONSTER：莫納什可擴展時間序列評估資源庫
MONSTER: Monash Scalable Time Series Evaluation Repository

Feb 21, 2025

Angus Dempster, Navid Mohammadi Foumani, Chang Wei Tan, Lynn Miller, Amish Mishra, Mahsa Salehi, Charlotte Pelletier, Daniel F. Schmidt, Geoffrey I. Webb

我們推出MONSTER——莫納什可擴展時間序列評估庫，這是一個專為時間序列分類而設的大型數據集集合。時間序列分類領域因UCR和UEA時間序列分類庫設立的通用基準而受益匪淺。然而，這些基準中的數據集規模較小，中位數分別為217和255個樣本。因此，它們傾向於支持那些在各種小型數據集上實現低分類錯誤率優化的模型，即那些最小化方差、對計算問題（如可擴展性）重視不足的模型。我們希望通過引入使用更大數據集的基準來使該領域多樣化。我們相信，通過應對從更大數據量中有效學習的理論與實踐挑戰，該領域具有巨大的新進展潛力。

利用ViT與CNN架構從胸部X光影像診斷COVID-19嚴重程度
Diagnosing COVID-19 Severity from Chest X-Ray Images Using ViT and CNN Architectures

Feb 23, 2025

Luis Lara, Lucia Eve Berger, Rajesh Raju, Shawn Whitfield

COVID-19疫情對醫療資源造成了巨大壓力，並引發了關於如何利用機器學習減輕醫生負擔、輔助診斷的討論。胸部X光片（CXRs）被用於COVID-19的診斷，但鮮有研究基於CXRs預測患者病情的嚴重程度。在本研究中，我們通過整合三個數據源創建了一個大型COVID嚴重程度數據集，並探討了基於ImageNet和CXR預訓練模型以及視覺Transformer（ViTs）在嚴重程度回歸和分類任務中的效果。在三分類嚴重程度預測問題上，預訓練的DenseNet161模型表現最佳，總體準確率達80%，在輕度、中度和重度病例上的準確率分別為77.3%、83.9%和70%。而ViT在回歸任務中表現最優，其預測的嚴重程度評分與放射科醫生的評分相比，平均絕對誤差為0.5676。本項目的源代碼已公開提供。

M3-AGIQA：多模态、多轮次、多面向的AI生成图像质量评估
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment

Feb 21, 2025

Chuan Cui, Kejiang Chen, Zhihua Wei, Wen Shen, Weiming Zhang, Nenghai Yu

AI生成圖像（AGI）模型的快速發展，在評估其品質方面帶來了重大挑戰，這需要考慮多個維度，如感知品質、提示對應性和真實性。為應對這些挑戰，我們提出了M3-AGIQA，一個多模態、多輪次、多方面的AGI品質評估綜合框架。我們的方法利用多模態大型語言模型（MLLMs）作為聯合文本和圖像編碼器，並通過低秩適應（LoRA）微調將線上MLLMs的高級描述能力蒸餾到本地模型中。該框架包含一個結構化的多輪評估機制，其中生成中間圖像描述以提供對品質、對應性和真實性方面的深入洞察。為了使預測與人類感知判斷一致，我們整合了一個由xLSTM和回歸頭構建的預測器，用於處理序列邏輯並預測平均意見分數（MOSs）。在多個基準數據集上進行的廣泛實驗表明，M3-AGIQA達到了最先進的性能，有效捕捉了AGI品質的細微差別。此外，跨數據集驗證證實了其強大的泛化能力。代碼可在https://github.com/strawhatboy/M3-AGIQA 獲取。

布朗球體中的蛇
The snake in the Brownian sphere

Feb 18, 2025

Omer Angel, Emmanuel Jacob, Brett Kolesnik, Grégory Miermont

布朗球體是一種隨機度量空間，它與二維球面同胚，並作為多種類型隨機平面圖的普適標度極限而出現。布朗球體的直接構造是通過科里-沃克蘭-謝弗（CVS）雙射的連續類比實現的。CVS雙射將標記樹映射到平面圖，而其連續版本則將帶有布朗標籤的阿爾杜斯連續隨機樹（即布朗蛇）映射到布朗球體。在本研究中，我們通過將布朗蛇構建為布朗球體的可測函數，描述了連續CVS雙射的逆映射。在處理布朗球體的方向時，需要特別注意。

AI研究論文每日精選

每日精選AI研究論文及翻譯

VideoGrain：調控時空注意力以實現多粒度影片編輯
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Feb 24, 2025

Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang

795

如是说长上下文大语言模型
Thus Spake Long-Context Large Language Model

Feb 24, 2025

Xiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu

736