AI研究論文每日精選

每日精選AI研究論文及翻譯

Loopy：通過長期運動依賴性來馴服音頻驅動的肖像化頭像
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

Sep 4

ByJianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng

隨著基於擴散的影片生成技術的引入，最近在音訊條件下的人類影片生成在動作的自然度和肖像細節的合成方面取得了顯著突破。由於在驅動人類動作時音訊信號的控制受限，現有方法通常會添加輔助空間信號以穩定動作，這可能會影響動作的自然度和自由度。在本文中，我們提出了一種名為 Loopy 的端對端僅音訊條件下的影片擴散模型。具體來說，我們設計了一個片內和片間時間模塊以及一個音訊到潛在模塊，使模型能夠利用來自數據的長期運動信息來學習自然運動模式，並改善音訊-肖像運動之間的相關性。該方法消除了現有方法中用於在推論期間限制運動的手動指定空間運動模板的需求。大量實驗表明，Loopy 優於最近的音訊驅動肖像擴散模型，在各種情境下提供更逼真和高質量的結果。

LongLLaVA：通過混合架構高效擴展多模式LLM到1000張圖像
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

Sep 4

ByXidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang

擴展多模式大型語言模型（MLLMs）的長篇文本能力對於視頻理解、高解析度圖像理解和多模式代理至關重要。這涉及一系列系統優化，包括模型架構、數據構建和訓練策略，特別是應對諸如隨著圖像增加而性能下降和高計算成本等挑戰。在本文中，我們將模型架構調整為Mamba和Transformer塊的混合，通過考慮多個圖像之間的時間和空間依賴性來處理數據構建，並採用漸進式訓練策略。釋出的模型LongLLaVA（Long-Context Large Language and Vision Assistant）是第一個混合MLLM，實現了效率和效果之間更好的平衡。LongLLaVA不僅在各種基準測試中取得了競爭力的結果，而且保持了高吞吐量和低內存消耗。特別是，它可以在單個A100 80GB GPU上處理近千幅圖像，展示了廣泛任務的應用前景。

LongCite：讓LLMs在長文本問答中生成細緻引用
LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

Sep 4

Byjiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li

儘管目前的長文本大型語言模型（LLMs）在回答基於廣泛文本的使用者問題方面展現出令人印象深刻的能力，但由於其回應中缺乏引文，使得使用者驗證變得困難，引發對其可信度的擔憂，因為可能出現幻覺。在這項工作中，我們旨在讓長文本LLMs能夠生成具有細粒度句級引文的回應，從而提高其忠實度和可驗證性。我們首先介紹了LongBench-Cite，這是一個自動化基準測試，用於評估目前LLMs在帶有引文的長文本問答（LQAC）中的表現，揭示了有待改進的相當大空間。為此，我們提出了CoF（Coarse to Fine），這是一個新穎的流程，利用現成的LLMs自動生成具有精確句級引文的長文本問答實例，並利用這個流程構建了LongCite-45k，一個用於LQAC的大規模SFT數據集。最後，我們使用LongCite-45k數據集訓練了LongCite-8B和LongCite-9B，成功使它們能夠在單一輸出中生成準確的回應和細粒度句級引文。在LongBench-Cite上的評估結果顯示，我們訓練的模型實現了最先進的引文質量，超越了包括GPT-4o在內的先進專有模型。

MMMU-Pro：一個更穩健的多學科多模態理解基準。
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

Sep 4

ByXiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig

本文介紹了MMMU-Pro，這是Massive Multi-discipline Multimodal Understanding and Reasoning（MMMU）基準的穩健版本。MMMU-Pro通過基於MMMU的三步驟過程嚴格評估多模態模型的真正理解和推理能力：（1）過濾僅可由純文本模型回答的問題，（2）擴充候選選項，以及（3）引入僅視覺輸入設置，其中問題嵌入在圖像中。這種設置挑戰AI同時真正“看到”和“閱讀”，測試無縫整合視覺和文本信息的基本人類認知技能。結果顯示，在MMMU-Pro上，模型性能顯著低於MMMU，各模型的範圍從16.8%到26.9%不等。我們探討了OCR提示和Chain of Thought（CoT）推理的影響，發現OCR提示影響較小，而CoT通常提高性能。MMMU-Pro提供了一個更嚴格的評估工具，緊密模擬現實情境，為未來多模態AI研究提供寶貴方向。

基於Affordance的機器人操作與流匹配
Affordance-based Robot Manipulation with Flow Matching

Sep 2

ByFan Zhang, Michael Gienger

我們提出了一個輔助機器人操作的框架，專注於兩個基本挑戰：首先，有效地將大規模模型適應到下游場景可負擔性理解任務，特別是在日常生活場景中，收集涉及人類的多任務數據需要費力；其次，通過基於視覺可負擔性模型的機器人軌跡學習。我們通過採用一種參數高效的提示調整方法來應對第一個挑戰，該方法在凍結的視覺模型前面添加可學習的文本提示，以在多任務場景中預測操作可負擔性。然後，我們提出通過受可負擔性引導的監督式流匹配方法來學習機器人軌跡。流匹配將機器人視覺運動策略表示為將隨機航點流向所需機器人軌跡的條件過程。最後，我們引入了一個涵蓋日常生活活動的10個任務的真實世界數據集來測試我們的框架。我們的廣泛評估突出了所提出的用於學習操作可負擔性的提示調整方法與語言提示器實現了競爭性性能，甚至在不同數據規模上優於其他微調協議，同時滿足參數效率。通過單一流匹配策略學習多任務機器人軌跡也比替代行為克隆方法始終實現更好的性能，特別是在考慮多模態機器人行動分佈的情況下。我們的框架通過流匹配無縫統一了可負擔性模型學習和軌跡生成，用於機器人操作。

北極雪碼者：揭開程式預訓練中高質量數據的神秘面紗
Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining

Sep 3

ByYuxiang Wei, Hojae Han, Rajhans Samdani

近期的研究越來越顯示高質量的數據對於語言模型的有效預訓練至關重要。然而，“高質量”的確切定義仍未被深入探討。著眼於代碼領域，我們介紹了Arctic-SnowCoder-1.3B，這是一個在555B令牌上進行預訓練的數據高效基礎代碼模型，通過三個階段逐步精煉的數據實現：(1) 通用預訓練，使用500B標準質量代碼令牌，經過基本篩選、去重和去污染的預處理；(2) 繼續預訓練，使用從第一階段中由BERT風格質量標註器選擇的50B高質量令牌，該標註器經過訓練以區分良好代碼和隨機數據，使用從高質量代碼文件中提取的正面示例，以及來自Magicoder和StarCoder2-Instruct的指導數據；(3) 增強預訓練，使用由Llama-3.1-70B創建的5B合成數據，使用第二階段數據作為種子，適應Magicoder方法進行預訓練。儘管在有限數據集上進行訓練，Arctic-SnowCoder在BigCodeBench上實現了最先進的性能，這是一個專注於實用和具有挑戰性的編程任務的編碼基準，與僅訓練不超過1T令牌的大小相似的模型相比，其性能超越了Phi-1.5-1.3B的36％。在所有評估基準中，Arctic-SnowCoder-1.3B擊敗了在1T令牌上進行預訓練的StarCoderBase-3B。此外，它與在數千億令牌上進行訓練的領先小型基礎代碼模型的性能相匹配。例如，Arctic-SnowCoder-1.3B在HumanEval+上超越了在超過3.3T令牌上進行預訓練的StarCoder2-3B，在這個基準上評估功能級代碼生成，並在BigCodeBench上保持競爭力。我們的評估提供了對Arctic-SnowCoder各種設計選擇的全面分析的證明。最重要的是，我們發現高質量數據的關鍵在於與下游應用程序的分佈對齊。

政治辯論：用於政治文本的高效零樣本和少樣本分類器
Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text

Sep 3

ByMichael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng

社會科學家迅速採用大型語言模型，因為這些模型能夠在無監督訓練的情況下對文件進行註釋，這種能力被稱為零-shot學習。然而，由於其計算需求、成本和通常的專有性質，這些模型常常與複製和開放科學標準相抵觸。本文介紹了用於政治文件零-shot和少-shot分類的Political DEBATE（DeBERTa文本蘊涵算法）語言模型。這些模型不僅在零-shot和少-shot分類方面與最先進的大型語言模型一樣好，甚至更好，而且效率更高，完全開源。通過在簡單隨機樣本的10-25份文件上訓練模型，它們可以優於通過數百或數千份文件進行訓練的監督分類器和具有複雜、工程化提示的最先進生成模型。此外，我們釋出了用於訓練這些模型的PolNLI數據集，這是一個包含超過200,000份政治文件並涵蓋超過800個分類任務的語料庫，標籤非常準確。

FastVoiceGrad：一步擴散式語音轉換，具有對抗條件擴散蒸餾
FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation

Sep 3

ByTakuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

基於擴散的語音轉換（VC）技術，如VoiceGrad，因其在語音質量和說話者相似性方面的高VC性能而引起關注。然而，一個顯著的限制是多步反向擴散導致的緩慢推斷。因此，我們提出了FastVoiceGrad，一種新穎的一步擴散式VC，將迭代次數從幾十次減少到一次，同時繼承多步擴散式VC的高VC性能。我們使用對抗條件擴散蒸餾（ACDD）獲得模型，利用生成對抗網絡和擴散模型的能力，同時重新考慮抽樣中的初始狀態。一次任意到任意VC的評估表明，FastVoiceGrad實現了優於或與先前多步擴散式VC相當的VC性能，同時提高了推斷速度。音頻樣本可在以下網址找到：https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/。

AI研究論文每日精選

每日精選AI研究論文及翻譯

Loopy：通過長期運動依賴性來馴服音頻驅動的肖像化頭像
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

Sep 4

ByJianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng

LongLLaVA：通過混合架構高效擴展多模式LLM到1000張圖像
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

Sep 4

ByXidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang

FastVoiceGrad：一步擴散式語音轉換，具有對抗條件擴散蒸餾
FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation

Sep 3

ByTakuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo