AI研究論文每日精選

每日精選AI研究論文及翻譯

MMDU：LVLMs 的多輪多圖像對話理解基準和指示微調數據集
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

Jun 17

ByZiyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang

生成自然且有意義的回應以與多模態人類輸入進行溝通是大型視覺語言模型（LVLMs）的基本能力。儘管目前的開源LVLMs在簡化情境（如單輪單圖像輸入）中展現了令人期待的表現，但在現實世界的對話情境中（如在具有多輪和多圖像的長篇歷史中遵循指示）表現不佳。現有的LVLM基準主要聚焦於單選問題或簡短回應，無法充分評估LVLMs在現實世界人機互動應用中的能力。因此，我們介紹了MMDU，一個全面的基準測試，以及MMDU-45k，一個大規模指令調整數據集，旨在評估和提升LVLMs在多輪和多圖像對話中的能力。我們利用聚類算法從開源維基百科中找到相關圖像和文本描述，並由人類標註者在GPT-4o模型的協助下構建問答對。MMDU最多包含18k個圖像+文本標記、20張圖像和27輪對話，至少比以前的基準長5倍，對當前的LVLMs提出挑戰。我們對15個代表性LVLMs進行了深入分析，發現由於有限的對話指令調整數據，開源LVLMs落後於封閉源代表。我們證明，在MMDU-45k上微調開源LVLMs可以顯著填補這一差距，生成更長且更準確的對話，並提高MMDU和現有基準測試的得分（MMStar：+1.1％，MathVista：+1.5％，ChartQA：+1.2％）。我們的貢獻為拉近當前LVLM模型與現實應用需求之間的差距鋪平了道路。此項目可在https://github.com/Liuziyu77/MMDU中找到。

DataComp-LM：尋找語言模型下一代訓練集的研究
DataComp-LM: In search of the next generation of training sets for language models

Jun 17

ByJeffrey Li, Alex Fang, Georgios Smyrnis, Maor Ivgi, Matt Jordan, Samir Gadre, Hritik Bansal, Etash Guha, Sedrick Keh, Kushal Arora, Saurabh Garg, Rui Xin, Niklas Muennighoff, Reinhard Heckel, Jean Mercat, Mayee Chen, Suchin Gururangan, Mitchell Wortsman, Alon Albalak, Yonatan Bitton, Marianna Nezhurina, Amro Abbas, Cheng-Yu Hsieh, Dhruba Ghosh, Josh Gardner, Maciej Kilian, Hanlin Zhang, Rulin Shao, Sarah Pratt, Sunny Sanyal, Gabriel Ilharco, Giannis Daras, Kalyani Marathe, Aaron Gokaslan, Jieyu Zhang, Khyathi Chandu, Thao Nguyen, Igor Vasiljevic, Sham Kakade, Shuran Song, Sujay Sanghavi, Fartash Faghri, Sewoong Oh, Luke Zettlemoyer, Kyle Lo, Alaaeldin El-Nouby, Hadi Pouransari, Alexander Toshev, Stephanie Wang, Dirk Groeneveld, Luca Soldani, Pang Wei Koh, Jenia Jitsev, Thomas Kollar, Alexandros G. Dimakis, Yair Carmon, Achal Dave, Ludwig Schmidt, Vaishaal Shankar

我們介紹了用於語言模型（LM）的DataComp（DCLM），這是一個旨在改進語言模型的受控數據集實驗平台。作為DCLM的一部分，我們提供了一個標準化的語料庫，包含從Common Crawl中提取的240T標記，基於OpenLM框架的有效預訓練配方，以及廣泛的53個下游評估。參與DCLM基準測試的參與者可以在模型規模從412M到7B參數的範圍內嘗試數據整理策略，如去重、過濾和數據混合。作為DCLM的基準，我們進行了廣泛的實驗，發現基於模型的過濾對於組合高質量訓練集至關重要。由此產生的數據集DCLM-Baseline使得可以從頭開始訓練一個7B參數的語言模型，在具有2.6T訓練標記的MMLU上實現64%的5-shot準確率。與先前開放數據語言模型的最新技術MAP-Neo相比，DCLM-Baseline在MMLU上的表現提高了6.6個百分點，而計算量減少了40%。我們的基準模型在MMLU上也與Mistral-7B-v0.3和Llama 3 8B相當（63%和66%），並在53個自然語言理解任務的平均表現上與Llama 3 8B相當，但計算量少了6.6倍。我們的結果突顯了數據集設計對於訓練語言模型的重要性，並為進一步研究數據整理提供了一個起點。

mDPO：多模態大型語言模型的條件偏好優化
mDPO: Conditional Preference Optimization for Multimodal Large Language Models

Jun 17

ByFei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen

直接偏好優化（DPO）已被證明是大型語言模型（LLM）對齊的有效方法。最近的研究嘗試將DPO應用於多模態情境，但發現難以實現一致的改進。通過一項比較實驗，我們確定了多模態偏好優化中的無條件偏好問題，即模型忽略了圖像條件。為了解決這個問題，我們提出了mDPO，一種多模態DPO目標，通過優化圖像偏好來防止過度優先考慮僅限於語言的偏好。此外，我們引入了一個獎勵錨點，強制獎勵對於所選應答是正面的，從而避免相對偏好優化的固有問題，即它們的可能性降低。對兩個不同大小的多模態LLM和三個廣泛使用的基準進行的實驗表明，mDPO有效地解決了多模態偏好優化中的無條件偏好問題，並顯著改善了模型性能，特別是在減少幻覺方面。

THEANINE：在長期對話中重新審視記憶管理與時間軸增強回應生成
THEANINE: Revisiting Memory Management in Long-term Conversations with Timeline-augmented Response Generation

Jun 16

BySeo Hyun Kim, Kai Tzu-iunn Ong, Taeyoon Kwon, Namyoung Kim, Keummin Ka, SeongHyeon Bae, Yohan Jo, Seung-won Hwang, Dongha Lee, Jinyoung Yeo

大型語言模型（LLMs）能夠在與用戶進行長時間互動時處理冗長的對話歷史，而無需額外的記憶模塊；然而，它們的回應往往會忽略或不正確地回憶過去的信息。在本文中，我們重新探討了在LLMs時代的記憶增強式回應生成。儘管先前的工作著重於消除過時的記憶，但我們認為這些記憶可以提供上下文線索，幫助對話系統理解過去事件的發展，因此有助於回應生成。我們提出了Theanine，一個框架，它通過記憶時間軸來增強LLMs的回應生成，這些時間軸展示了相關過去事件的發展和因果關係。除了Theanine之外，我們還介紹了TeaFarm，一個以反事實驅動的問答管道，解決了長期對話中G-Eval的限制。我們的方法的補充視頻和TeaFarm評估的TeaBag數據集可在https://theanine-693b0.web.app/找到。

MeshAnything：藝術家創建的網格生成與自回歸Transformer
MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

Jun 14

ByYiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Xin Chen, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, Chi Zhang

最近，通過重建和生成創建的3D資產已經達到了手工製作資產的質量水平，突顯了它們作為替代品的潛力。然而，這種潛力主要尚未實現，因為這些資產總是需要轉換為網格以供3D行業應用，而當前的網格提取方法生成的網格明顯遠遜於藝術家創建的網格（AMs），即由人類藝術家創建的網格。具體來說，當前的網格提取方法依賴於密集的面並忽略幾何特徵，導致效率低下、後處理複雜且表示質量較低。為了解決這些問題，我們引入了MeshAnything，這是一個將網格提取視為生成問題的模型，生成與指定形狀對齊的AMs。通過將任何3D表示中的3D資產轉換為AMs，MeshAnything可以與各種3D資產生產方法集成，從而增強它們在3D行業中的應用。MeshAnything的架構包括一個VQ-VAE和一個僅解碼器的形狀條件化Transformer。我們首先使用VQ-VAE學習網格詞彙，然後在這個詞彙上訓練形狀條件化的解碼器Transformer，用於形狀條件化的自回歸網格生成。我們的大量實驗表明，我們的方法生成的AMs具有數百倍更少的面，顯著提高了存儲、渲染和模擬效率，同時實現了與先前方法可比的精度。

大型語言模型在預訓練期間如何獲得事實知識？
How Do Large Language Models Acquire Factual Knowledge During Pretraining?

Jun 17

ByHoyeon Chang, Jinho Park, Seonghyeon Ye, Sohee Yang, Youngkyung Seo, Du-Seong Chang, Minjoon Seo

儘管最近觀察到大型語言模型（LLMs）能夠儲存大量事實知識，對於它們如何通過預訓練獲取事實知識的機制仍知之甚少。本研究填補了這一空白，研究了LLMs在預訓練期間如何獲取事實知識。研究結果揭示了在預訓練期間獲取事實知識的動態過程中的幾個重要見解。首先，出乎意料地，我們觀察到在更多數據上的預訓練並未顯著提高模型獲取和保持事實知識的能力。接下來，訓練步驟與遺忘記憶和事實知識泛化之間存在冪律關係，使用重複訓練數據訓練的LLMs表現出更快的遺忘速度。第三，使用更大的批次大小訓練LLMs可以增強模型對遺忘的抵抗力。總的來說，我們的觀察表明，在LLMs的預訓練中，事實知識的獲取是通過逐步增加每個步驟中預訓練數據中呈現的事實知識的概率而發生的。然而，這種增加會被後續的遺忘所稀釋。基於這一解釋，我們證明了我們可以對LLMs最近觀察到的行為提供合理的解釋，例如LLMs在長尾知識上表現不佳以及去重預訓練語料庫的好處。

VideoLLM-online：用於串流視頻的在線視頻大型語言模型
VideoLLM-online: Online Video Large Language Model for Streaming Video

Jun 17

ByJoya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou

最近的大型語言模型已經增強了視覺能力，使它們能夠理解圖像、視頻和交錯的視覺語言內容。然而，這些大型多模型模型的學習方法通常將視頻視為預定的片段，這使它們在處理流式視頻輸入時效果不佳且效率低下。在本文中，我們提出了一個新穎的「視頻流學習」（LIVE）框架，該框架使連續視頻流內實現了時間對齊、長上下文和實時對話。我們的LIVE框架包括全面的方法，以實現視頻流對話，包括：（1）一個旨在為連續流輸入執行語言建模的訓練目標，（2）一個數據生成方案，將離線時間標註轉換為流式對話格式，以及（3）一個優化的推理流程，以加快模型在現實世界視頻流中的響應速度。通過我們的LIVE框架，我們基於Llama-2/Llama-3構建了VideoLLM-online模型，並展示了它在處理流式視頻方面的顯著優勢。例如，我們的模型平均可以在A100 GPU上以超過10 FPS的速度支持5分鐘視頻片段中的流式對話。此外，它還展示了在公共離線視頻基準測試中的最新性能，如識別、字幕和預測。代碼、模型、數據和演示可在 https://showlab.github.io/videollm-online 上找到。

一種簡單而有效的基於 L_2 范數的 KV 快取壓縮策略
A Simple and Effective L_2 Norm-Based Strategy for KV Cache Compression

Jun 17

ByAlessio Devoto, Yu Zhao, Simone Scardapane, Pasquale Minervini

大型語言模型（LLMs）的部署常常受到關鍵-值（KV）快取的大量記憶體需求的阻礙，尤其是在上下文長度增加時。現有的減少KV快取大小的方法包括微調模型以學習壓縮策略，或利用注意力分數來減少序列長度。我們分析了僅包含解碼器的基於Transformer的模型中的注意力分佈，並觀察到在大多數層中，注意力分配模式保持一致。令人驚訝的是，我們發現在緩存的KV對中，鍵的嵌入的L_2和注意力分數之間存在明顯的相關性，鍵嵌入的低L_2通常導致解碼期間的高注意力分數。這一發現表明，KV對的影響可能在查詢之前就由鍵嵌入本身確定。基於這一觀察，我們根據鍵嵌入的L_2對KV快取進行壓縮。我們的實驗結果顯示，這種簡單策略可以在語言建模和尋找針在一堆草堆任務中將KV快取大小減少50％，在密碼檢索任務中減少90％，而不損失準確性。

GAMA：具有先進音頻理解和複雜推理能力的大型音語言模型
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

Jun 17

BySreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha

認知和理解非語音聲音和非語言語音對於做出幫助我們與周圍環境互動的決策至關重要。在本文中，我們提出了GAMA，一種新型的通用大型音頻語言模型（LALM），具有先進的音頻理解和複雜推理能力。我們通過將LLM與多種類型的音頻表示集成來構建GAMA，其中包括來自自定義音頻Q-Former的特徵，這是一種多層聚合器，可以聚合來自音頻編碼器多個層的特徵。我們在大規模音頻語言數據集上對GAMA進行微調，從而增強其音頻理解能力。接著，我們提出CompA-R（用於複雜音頻推理的指令調整），這是一個合成生成的指令調整（IT）數據集，其中包含需要模型對輸入音頻進行複雜推理的指令。我們使用CompA-R對GAMA進行指令調整，賦予其複雜推理能力，同時通過利用輸入音頻的事件標籤添加高層語義證據作為輸入的軟提示。最後，我們還提出CompA-R-test，這是一個人工標記的評估數據集，用於評估LALM在需要複雜推理的開放式音頻問答任務上的能力。通過自動化和專家人工評估，我們展示GAMA在各種音頻理解任務上的表現優於文獻中所有其他LALM，優勢範圍為1%至84%。此外，經CompA-R指令調整後的GAMA在複雜推理和指令遵循能力方面表現卓越。

探索大型語言模型在提示編碼中對擴散模型的作用
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models

Jun 17

ByBingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu

基於僅解碼器的大型語言模型（LLMs）展現出比CLIP和T5系列模型更優越的文本理解能力。然而，目前尚未探索如何將當前先進的LLMs應用於文本到圖像擴散模型的範式。我們觀察到一個不尋常的現象：直接將大型語言模型用作提示編碼器會顯著降低圖像生成中的提示跟隨能力。我們確認了這個問題背後的兩個主要障礙。一個是LLM中下一個令牌預測訓練與擴散模型中需要的有區分性提示特徵之間的不一致。另一個是解碼器專用架構引入的固有位置偏差。為了應對這個問題，我們提出了一個新穎的框架，充分利用LLMs的能力。通過精心設計的使用指南，我們有效增強了提示編碼的文本表示能力，並消除了其固有的位置偏差。這使我們能夠靈活地將最先進的LLMs整合到文本到圖像生成模型中。此外，我們還提供了一種有效的方式將多個LLMs融入我們的框架中。考慮到變壓器架構展示的出色性能和擴展能力，我們進一步基於該框架設計了一個LLM-注入擴散變壓器（LI-DiT）。我們進行了廣泛的實驗，驗證了LI-DiT在模型大小和數據大小上的表現。由於LLMs的固有能力和我們的創新設計，LI-DiT的提示理解性能輕鬆超越了最先進的開源模型以及主流的封閉商業模型，包括Stable Diffusion 3、DALL-E 3和Midjourney V6。功能強大的LI-DiT-10B將在進一步優化和安全檢查後提供。

MINT-1T：將開源多模態數據擴展10倍：具有一兆標記的多模態數據集
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

Jun 17

ByAnas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Kumar Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt

多模交錯數據集，其中包含自由形式的圖像和文本交錯序列，對於訓練前沿大型多模型（LMMs）至關重要。儘管開源LMMs快速發展，但大規模、多樣化的開源多模交錯數據集仍然非常稀缺。為此，我們推出了MINT-1T，迄今為止最廣泛、最多樣化的開源多模交錯數據集。MINT-1T包含一兆文本標記和三十億圖像，比現有開源數據集擴大了10倍。此外，我們還包括以前未開發的來源，如PDF和ArXiv論文。由於擴展多模交錯數據集需要大量工程努力，分享數據整理過程並釋放數據集將極大地惠及社區。我們的實驗表明，在MINT-1T上訓練的LMMs與以前領先數據集OBELICS上訓練的模型性能相媲美。我們的數據和代碼將在https://github.com/mlfoundations/MINT-1T上發布。

上下文編輯：從自我誘導的分佈中學習知識
In-Context Editing: Learning Knowledge from Self-Induced Distributions

Jun 17

BySiyuan Qi, Bangcheng Yang, Kailin Jiang, Xiaobo Wang, Jiaqi Li, Yifan Zhong, Yaodong Yang, Zilong Zheng

現有的語言模型微調範式在知識編輯情境下顯得脆弱，當模型需要納入新資訊而無需進行大量重新訓練時。這種脆弱性通常導致過度擬合、性能降低和不自然的語言生成。為了解決這個問題，我們提出了一種新方法，稱為一致性上下文編輯（ICE），利用模型的上下文學習能力來調整至上下文分佈，而非單一熱目標。ICE引入了一個直觀的優化框架，包括目標和程序，增強了基於梯度調整方法的韌性和效果。我們從知識編輯的四個關鍵方面：準確性、局部性、泛化性和語言質量，提供了ICE的分析洞察，展示其優勢。在四個數據集上的實驗結果證實了ICE的有效性，並展示了其持續編輯的潛力，確保更新的資訊被納入同時保持模型的完整性。

LLaNA：大型語言與 NeRF 助理
LLaNA: Large Language and NeRF Assistant

Jun 17

ByAndrea Amaduzzi, Pierluigi Zama Ramirez, Giuseppe Lisanti, Samuele Salti, Luigi Di Stefano

多模式大型語言模型（MLLMs）已展現出對圖像和3D數據的優異理解能力。然而，這兩種模態在全面捕捉物體外觀和幾何特徵方面存在缺陷。與此同時，神經輻射場（NeRFs）採用簡單的多層感知器（MLP）權重來編碼信息，已成為一種日益普及的模態，同時編碼了物體的幾何特徵和照片般逼真的外觀。本文探討將NeRF納入MLLM的可行性和有效性。我們創建了LLaNA，第一個能夠執行NeRF字幕和問答等新任務的通用NeRF-語言助手。值得注意的是，我們的方法直接處理NeRF的MLP權重，以提取有關所代表物體的信息，無需渲染圖像或具現化3D數據結構。此外，我們建立了一個包含各種NeRF-語言任務的NeRF數據集，並無需人類干預進行文本標註。基於該數據集，我們開發了一個基準來評估我們方法的NeRF理解能力。結果顯示，處理NeRF權重的效果優於從NeRF中提取2D或3D表示。

從像素到散文：一個大型的密集圖像標題數據集
From Pixels to Prose: A Large Dataset of Dense Image Captions

Jun 14

ByVasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein

訓練大型視覺語言模型需要大量高質量的圖像-文本配對。然而，現有的網絡抓取數據集存在噪音並且缺乏詳細的圖像描述。為彌補這一差距，我們引入了PixelProse，這是一個包含超過1600萬個合成生成標題的全面數據集，利用尖端的視覺語言模型進行詳細和準確的描述。為確保數據完整性，我們嚴格分析我們的數據集，包括問題內容，如兒童性虐待材料（CSAM）、個人可識別信息（PII）和有毒內容。我們還提供有價值的元數據，如水印存在和美學分數，有助於進一步篩選數據集。我們希望PixelProse將成為未來視覺語言研究的寶貴資源。PixelProse可在以下網址獲得：https://huggingface.co/datasets/tomg-group-umd/pixelprose

WPO：利用加權偏好優化增強RLHF
WPO: Enhancing RLHF with Weighted Preference Optimization

Jun 17

ByWenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu

從人類反饋中學習的強化學習（RLHF）是一種有前途的解決方案，可以使大型語言模型（LLMs）與人類價值更加密切地保持一致。離線策略偏好優化，其中偏好數據來自其他模型，由於其成本效益和可擴展性而被廣泛採用。然而，離線策略偏好優化通常受到用於數據收集的策略與目標策略之間的分布差異的影響，導致次優化。在本文中，我們提出了一種新的策略來減輕這個問題，即通過使用離線偏好數據模擬在線學習。我們的加權偏好優化（WPO）方法通過根據它們在當前策略下的概率對偏好配對進行重新加權，將離線數據調整得更加貼近在線數據。這種方法不僅解決了分布差異問題，還增強了優化過程，而且不會產生額外成本。我們在包括Alpaca Eval 2和MT-bench在內的指令遵循基準上驗證了我們的方法。WPO不僅在Alpaca Eval 2上比直接偏好優化（DPO）高達5.6％，而且基於Llama-3-8B-Instruct，對抗GPT-4-turbo的勝率達到了驚人的48.6％，使其成為排行榜上最強大的8B模型。我們將在https://github.com/wzhouad/WPO 上發布代碼和模型。

Pandora：朝向具備自然語言操作和視頻狀態的通用世界模型
Pandora: Towards General World Model with Natural Language Actions and Video States

Jun 12

ByJiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning, Yuheng Zha, Zeyu Feng, Tianhua Tao, Shibo Hao, Yemin Shi, Zhengzhong Liu, Eric P. Xing, Zhiting Hu

世界模型根據不同的行動模擬未來世界的狀態。它們促進互動式內容創作，為基於長期推理的基礎奠定了基礎。目前的基礎模型並未完全滿足通用世界模型的能力：大型語言模型（LLMs）受限於對語言形式的依賴以及對物理世界的有限理解，而視頻模型則缺乏對世界模擬的互動行動控制。本文通過引入 Pandora，一種混合自回歸擴散模型，向構建通用世界模型邁出了一步，該模型通過生成視頻模擬世界狀態，並允許通過自由文本行動進行實時控制。Pandora 通過大規模預訓練和指導微調實現了領域通用性、視頻一致性和可控性。至關重要的是，Pandora 通過整合預訓練的 LLM（7B）和預訓練的視頻模型，避免了從頭開始訓練的成本，僅需要進行輕量級微調。我們展示了 Pandora 在不同領域（室內/室外、自然/城市、人類/機器人、2D/3D 等）的廣泛輸出。結果表明，通過更大規模的訓練，構建更強大的通用世界模型具有巨大潛力。

WildVision：利用人類偏好在真實環境中評估視覺語言模型
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences

Jun 16

ByYujie Lu, Dongfu Jiang, Wenhu Chen, William Yang Wang, Yejin Choi, Bill Yuchen Lin

最近在視覺語言模型（VLMs）方面取得的突破強調了在現實世界多模態互動中基準人類偏好的必要性。為了填補這一空白，我們推出了WildVision-Arena（WV-Arena），這是一個在線平台，用於收集人類偏好以評估VLMs。我們通過從WV-Arena的8,000個用戶提交中選擇了500個高質量樣本來為WV-Bench進行了精心策劃。WV-Bench使用GPT-4作為評判，將每個VLM與Claude-3-Sonnet進行比較，與WV-Arena Elo達到0.94的Spearman相關性。這明顯優於其他基準，如MMVet、MMMU和MMStar。我們對20K個現實世界互動的全面分析揭示了頂尖VLMs失敗案例的重要見解。例如，我們發現，儘管GPT-4V在簡單的視覺識別和推理任務中超越了許多其他模型，如Reka-Flash、Opus和Yi-VL-Plus，但在微妙的上下文提示、空間推理、視覺想像和專家領域知識方面仍然面臨挑戰。此外，當故意挑釁時，當前的VLMs存在幻覺和安全問題。我們將釋放我們的聊天和反饋數據，以進一步推動VLMs領域的研究。

L4GM：大型4D高斯重建模型
L4GM: Large 4D Gaussian Reconstruction Model

Jun 14

ByJiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling

我們提出了L4GM，這是第一個4D大型重建模型，可以從單視角視頻輸入中產生動畫物體，並且僅需一個前向傳遞過程，只需一秒鐘。我們成功的關鍵在於一個新穎的數據集，其中包含來自Objaverse的經過精心策劃和渲染的多視角視頻，該數據集展示了44K個不同的物體，具有48個視角中渲染的110K個動畫，總共生成了12M個視頻，包含300M幀。為了實現可擴展性，我們保持了L4GM的簡單性，並直接在預先訓練的3D大型重建模型LGM的基礎上進行構建，該模型可以從多視角圖像輸入中輸出3D高斯橢圓體。L4GM從以低幀率採樣的視頻幀中輸出每幀的3D高斯擴散表示，然後將表示升頻取得更高的幀率以實現時間平滑。我們在基礎LGM中添加了時間自注意力層，以幫助其學習時間上的一致性，並利用每個時間步的多視角渲染損失來訓練模型。通過訓練一個插值模型將表示升頻到更高的幀率，該模型產生中間的3D高斯表示。我們展示了只在合成數據上訓練的L4GM在野外視頻上具有極好的泛化能力，可以生成高質量的動畫3D資產。

通過文件截圖嵌入實現多模檢索的統一
Unifying Multimodal Retrieval via Document Screenshot Embedding

Jun 17

ByXueguang Ma, Sheng-Chieh Lin, Minghan Li, Wenhu Chen, Jimmy Lin

在現實世界中，文件以不同格式和多樣模式組織。傳統的檢索流程需要定制的文件解析技術和內容提取模組來準備索引的輸入。這個過程繁瑣、容易出錯，並且存在信息損失。為此，我們提出了「文件截圖嵌入」（DSE），這是一種新穎的檢索範式，將文件截圖視為統一的輸入格式，無需任何內容提取預處理，並保留文件中的所有信息（例如文本、圖像和版面設計）。DSE利用大型視覺語言模型將文件截圖直接編碼為用於檢索的密集表示。為了評估我們的方法，我們首先創建了Wiki-SS數據集，其中包含130萬個維基百科網頁截圖作為語料庫，以回答自然問題數據集中的問題。在這種文本密集型文件檢索設置中，DSE相對於依賴解析的其他文本檢索方法表現出競爭力。例如，在頂部1的檢索準確性方面，DSE比BM25高出17個百分點。此外，在幻燈片檢索的混合模式任務中，DSE在nDCG@10方面明顯優於OCR文本檢索方法超過15個百分點。這些實驗表明，DSE是一種對各種類型文件有效的檢索範式。模型檢查點、代碼和Wiki-SS收集將被釋出。

任務我任何事
Task Me Anything

Jun 17

ByJieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michel, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna

大型多模態語言模型（MLM）的基準現在用於同時評估模型的一般能力，而不僅僅是評估特定能力。因此，當開發人員想要確定應該為其應用程序選擇哪些模型時，他們會被眾多基準所淹沒，並且對哪個基準的結果最能反映其特定用例感到不確定。本文介紹了一個名為「Task-Me-Anything」的基準生成引擎，它可以生成符合用戶需求的基準。Task-Me-Anything保持了一個可擴展的視覺資產分類法，可以以程式方式生成大量任務實例。此外，它可以在計算預算內高效地以演算法方式回答用戶關於MLM性能的查詢。它包含了113K張圖像、10K個視頻、2K個3D物體資產、365多個物體類別、655個屬性和335個關係。它可以生成750M個圖像/視頻問答對，重點評估MLM的感知能力。Task-Me-Anything揭示了一些關鍵見解：開源MLM在物體和屬性識別方面表現出色，但缺乏空間和時間理解；每個模型都有獨特的優勢和劣勢；通常較大的模型表現更好，但也存在例外；而GPT4o在識別旋轉/移動物體和區分顏色方面存在挑戰。

Vid3D：使用2D視頻擴散合成動態3D場景
Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion

Jun 17

ByRishab Parthasarathy, Zack Ankner, Aaron Gokaslan

近來在計算機視覺領域的一個前沿是3D視頻生成任務，該任務包括生成場景的時間變化的3D表示。為了生成動態的3D場景，當前的方法通過共同優化場景的時間和視圖之間的一致性來明確建模3D時間動態。在本文中，我們探討了當前方法明確強制在時間上實施多視圖一致性是否必要，或者模型是否僅需為每個時間步生成獨立的3D表示。因此，我們提出了一個名為Vid3D的模型，它利用2D視頻擴散來生成3D視頻，首先生成視頻時間動態的2D“種子”，然後獨立為種子視頻中的每個時間步生成3D表示。我們將Vid3D與兩種最先進的3D視頻生成方法進行評估，發現儘管Vid3D未明確建模3D時間動態，但其實現了可比的結果。我們進一步分析了Vid3D的質量如何取決於每幀生成的視圖數量。儘管我們觀察到視圖較少時存在一些降級，但性能降級仍然輕微。因此，我們的結果表明，生成高質量的動態3D場景可能不需要3D時間知識，這可能為該任務提供更簡單的生成算法。

人工智慧中的幽默：大規模眾包偏好和標題漫畫的基準。
Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning

Jun 15

ByJifan Zhang, Lalit Jain, Yang Guo, Jiayi Chen, Kuan Lok Zhou, Siddharth Suresh, Andrew Wagenmaker, Scott Sievert, Timothy Rogers, Kevin Jamieson, Robert Mankoff, Robert Nowak

我們提出了一個新穎的多模式偏好數據集，用於創意任務，包含超過兩億五千萬個人類對超過兩百二十萬個標題的評分，這些評分是在過去八年中通過群眾外包評分數據收集而來，用於《紐約客》每週漫畫標題比賽。這個獨特的數據集支持多模式大型語言模型的開發和評估，以及基於偏好的用於幽默標題生成的微調算法。我們提出了新穎的基準來評估模型生成的標題的質量，利用GPT4和人類判斷來建立基於排名的評估策略。我們的實驗結果突顯了當應用於創意任務時，目前微調方法（如RLHF和DPO）的局限性。此外，我們展示了即使是像GPT4和Claude這樣的最先進模型，在生成幽默標題方面也遠遜於頂尖的人類參賽者。隨著我們結束這一項廣泛的數據收集工作，我們將整個偏好數據集釋放給研究社區，促進AI幽默生成和評估的進一步發展。

神經網絡在實踐中到底有多靈活？
Just How Flexible are Neural Networks in Practice?

Jun 17

ByRavid Shwartz-Ziv, Micah Goldblum, Arpit Bansal, C. Bayan Bruss, Yann LeCun, Andrew Gordon Wilson

廣泛認為神經網絡可以擬合包含至少與其參數數量相同的樣本的訓練集，支撐了過度參數化和不足參數化模型的概念。然而，在實踐中，我們只能通過我們的訓練程序找到可訪問的解決方案，包括優化器和正則化器，這限制了靈活性。此外，函數類的確切參數化，內建於架構中，塑造了其損失曲面並影響我們找到的極小值。在這項工作中，我們檢驗神經網絡在實踐中擬合數據的能力。我們的研究結果表明：(1) 標準優化器找到的極小值僅能擬合樣本數遠少於其參數數量的訓練集；(2) 卷積網絡在隨機標記數據上比MLP和ViTs更具參數效率；(3) 雖然隨機訓練被認為具有正則化效應，但SGD實際上找到比全批次梯度下降更多訓練數據的極小值；(4) 對於能否正確擬合樣本，正確標記和錯誤標記樣本之間的差異可以預測泛化能力；(5) ReLU激活函數導致找到能擬合更多數據的極小值，儘管其設計目的是避免在深度架構中出現梯度消失和梯度爆炸。

跨任務類型、應用領域和推理類型評估開放式語言模型：深入的實驗分析
Evaluating Open Language Models Across Task Types, Application Domains, and Reasoning Types: An In-Depth Experimental Analysis

Jun 17

ByNeelabh Sinha, Vinija Jain, Aman Chadha

語言模型（LMs）的迅速崛起擴展了它們在多個應用中的使用。然而，由於模型大小的限制、相關成本或專有限制，並非總是可行利用最先進的（SOTA）大型語言模型。隨著開放、較小的LMs出現，更多應用可以利用它們的能力，但選擇合適的LM可能具有挑戰性。本研究對10個較小、開放的LM進行了深入的實驗分析，涵蓋三個方面：任務類型、應用領域和推理類型，並使用多樣的提示風格來評估其輸出的語義正確性。我們展示了根據具體要求，最有效的模型和提示風格會有所不同。我們的分析提供了一個基於用例和其他限制的三層方面架構，用於對LMs和提示風格進行比較評估，並進行戰略性選擇。我們還表明，如果適當使用，這些LMs可以與DeepSeek-v2、GPT-3.5-Turbo和GPT-4o等SOTA LMs競爭，有時甚至表現更佳。

CoLoR-Filter：針對目標語言模型預訓練的條件損失減少過濾器
CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training

Jun 15

ByDavid Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade

在塑造語言模型下游任務表現方面，選擇高質量的預訓練數據至關重要。一個主要挑戰在於識別這個最佳子集，這個問題通常被認為是棘手的，因此需要可擴展且有效的啟發式方法。在這項工作中，我們提出了一種數據選擇方法，稱為 CoLoR-Filter（Conditional Loss Reduction Filtering），它利用一種基於經驗貝葉斯的方法，根據兩個輔助模型的相對損失值來推導一個簡單且計算效率高的選擇標準。除了建模原理外，我們還在兩個語言建模任務上對 CoLoR-Filter 進行了實證評估：（1）從 C4 中選擇數據以進行領域適應，以在 Books 上進行評估，以及（2）從 C4 中選擇數據以應用於一系列下游多選問答任務。我們展示了在更積極地子選擇數據以及使用小型輔助模型為大型目標模型選擇數據時的有利擴展性。作為一個重要結果，使用一對擁有 150m 參數的輔助模型選擇的 CoLoR-Filter 數據，可以訓練一個擁有 1.2b 參數的目標模型，使其與使用 25b 隨機選擇的標記訓練的 1.2b 參數模型在 Books 上的數據量少 25 倍，在下游任務上的數據量少 11 倍。代碼：https://github.com/davidbrandfonbrener/color-filter-olmo 過濾後的數據：https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4

突破注意力瓶頸
Breaking the Attention Bottleneck

Jun 16

ByKalle Hilsenbek

基於注意力的Transformer已成為許多深度學習領域的標準架構，主要是因為它們能夠建模長距離依賴關係並處理可變長度的輸入序列。然而，由於其二次複雜度，注意力機制在Transformer架構中成為一個重要的瓶頸。該算法在解碼器中僅單向運作，並在過度參數化的僅解碼器模型中收斂為靜態模式。我通過開發一個生成函數作為注意力或激活替換來解決這個問題。通過將每個標記與前一個標記進行比較，它仍然具有自回歸特性。在我使用nanoGPT進行的測試設置中，這導致了更小的損失，同時擁有更小的模型。通過結合平均上下文向量，損失進一步降低。這種注意力替換的概念在GNU AGPL v3許可下分佈在https://gitlab.com/Bachstelze/causal_generation。

HiddenTables & PyQTax：一個合作遊戲和數據集，用於確保跨多個分類系統的規模和數據隱私的TableQA。
HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies

Jun 16

ByWilliam Watson, Nicole Cho, Tucker Balch, Manuela Veloso

眾多不同的大型語言模型（LLM）在上下文分析表格問答任務時面臨共同挑戰。這些挑戰源於（1）大型表格的有限上下文窗口、（2）在單元格邊界上的多面向標記化模式差異，以及（3）在使用外部模型如gpt-3.5-turbo時，由於數據機密性而產生的各種限制。我們提出了一種名為“HiddenTables”的合作遊戲，作為應對這一挑戰的潛在解決方案。本質上，“HiddenTables”是由生成代碼的LLM“Solver”和評估LLM代理解決表格QA任務能力的“Oracle”之間進行的遊戲。這個遊戲基於自然語言模式，並且重要的是確保底層數據的安全性。我們通過對各種表格進行的實驗提供了證據，表明LLM在無法推廣和處理複雜查詢、處理組合依賴性以及在提供具體表格模式時將自然語言對齊到程序命令方面的集體無能。與基於編碼器的模型不同，我們將“HiddenTables”的界限推到不受行數限制，因此我們展示了在提示和完成標記方面的效率提升。我們的基礎設施產生了一個新的數據集“PyQTax”，涵蓋了116,671個問題-表格-答案三元組，並為不同問題分類提供了額外的細分和標籤。因此，與我們關於LLM在TableQA任務中不足的學術貢獻相輔相成，“HiddenTables”是LLM如何與大規模數據集互動，同時確保數據安全性並最小化生成成本的具體體現。

一致性的平方：具有潛在一致性模型的一致且快速的3D繪畫
Consistency^2: Consistent and Fast 3D Painting with Latent Consistency Models

Jun 17

ByTianfu Wang, Anton Obukhov, Konrad Schindler

生成式3D繪畫是高解析度3D資產管理和回收中最具生產力的工具之一。自從文本轉圖像模型能夠在消費者硬體上進行推論以來，3D繪畫方法的性能不斷提升，目前已接近平穩期。大多數這類模型的核心在於潛在空間中的去噪擴散，這是一個固有耗時的迭代過程。最近已開發了多種技術，可加速生成並將取樣迭代次數降低數量級。這些技術是為2D生成影像而設計的，並沒有提供將其擴展到3D的方法。在本文中，我們通過提出適用於此任務的潛在一致性模型（LCM）來解決這個缺陷。我們分析了所提出模型的優勢和劣勢，並進行了定量和定性評估。基於Objaverse資料集樣本研究，我們的3D繪畫方法在所有評估中均獲得了較高的偏好。原始碼可在https://github.com/kongdai123/consistency2 找到。

深度貝葉斯主動學習用於大型語言模型中的偏好建模
Deep Bayesian Active Learning for Preference Modeling in Large Language Models

Jun 14

ByLuckeciano C. Melo, Panagiotis Tigas, Alessandro Abate, Yarin Gal

利用人類偏好來引導大型語言模型（LLMs）的行為在近年來已經取得顯著成功。然而，數據選擇和標記對這些系統仍然是一個瓶頸，特別是在大規模情況下。因此，選擇最具信息量的點以獲取人類反饋可能會大幅降低偏好標記的成本，並促進LLMs的進一步發展。貝葉斯主動學習提供了一個合理的框架來應對這一挑戰，在不同場景中展現出卓越的成功。然而，先前試圖將其應用於偏好建模的嘗試並未達到預期效果。在這項工作中，我們確定了天真的認知不確定性估計導致獲取冗餘樣本。我們通過提出貝葉斯主動學習者用於偏好建模（BAL-PM），一種新穎的隨機獲取策略，不僅針對偏好模型中的高認知不確定性點，還試圖最大化在由所使用的LLM跨越的特徵空間中獲取提示分佈的熵。值得注意的是，我們的實驗表明，在兩個流行的人類偏好數據集中，BAL-PM需要比以前的隨機貝葉斯獲取策略少 33% 到 68% 的偏好標記。

AI研究論文每日精選

每日精選AI研究論文及翻譯

MMDU：LVLMs 的多輪多圖像對話理解基準和指示微調數據集
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

Jun 17

ByZiyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang

DataComp-LM：尋找語言模型下一代訓練集的研究
DataComp-LM: In search of the next generation of training sets for language models

Jun 17

mDPO：多模態大型語言模型的條件偏好優化
mDPO: Conditional Preference Optimization for Multimodal Large Language Models

Jun 17

ByFei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen

THEANINE：在長期對話中重新審視記憶管理與時間軸增強回應生成
THEANINE: Revisiting Memory Management in Long-term Conversations with Timeline-augmented Response Generation

Jun 16

BySeo Hyun Kim, Kai Tzu-iunn Ong, Taeyoon Kwon, Namyoung Kim, Keummin Ka, SeongHyeon Bae, Yohan Jo, Seung-won Hwang, Dongha Lee, Jinyoung Yeo

MeshAnything：藝術家創建的網格生成與自回歸Transformer
MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

Jun 14

ByYiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Xin Chen, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, Chi Zhang

大型語言模型在預訓練期間如何獲得事實知識？
How Do Large Language Models Acquire Factual Knowledge During Pretraining?

Jun 17

ByHoyeon Chang, Jinho Park, Seonghyeon Ye, Sohee Yang, Youngkyung Seo, Du-Seong Chang, Minjoon Seo

VideoLLM-online：用於串流視頻的在線視頻大型語言模型
VideoLLM-online: Online Video Large Language Model for Streaming Video

Jun 17

ByJoya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou

一種簡單而有效的基於 L_2 范數的 KV 快取壓縮策略
A Simple and Effective L_2 Norm-Based Strategy for KV Cache Compression

Jun 17

ByAlessio Devoto, Yu Zhao, Simone Scardapane, Pasquale Minervini

GAMA：具有先進音頻理解和複雜推理能力的大型音語言模型
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

Jun 17

BySreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha

探索大型語言模型在提示編碼中對擴散模型的作用
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models

Jun 17

ByBingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu

MINT-1T：將開源多模態數據擴展10倍：具有一兆標記的多模態數據集
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

Jun 17

ByAnas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Kumar Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt

跨任務類型、應用領域和推理類型評估開放式語言模型：深入的實驗分析
Evaluating Open Language Models Across Task Types, Application Domains, and Reasoning Types: An In-Depth Experimental Analysis

Jun 17

ByNeelabh Sinha, Vinija Jain, Aman Chadha

CoLoR-Filter：針對目標語言模型預訓練的條件損失減少過濾器
CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training

Jun 15

ByDavid Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade

突破注意力瓶頸
Breaking the Attention Bottleneck

Jun 16

ByKalle Hilsenbek

HiddenTables & PyQTax：一個合作遊戲和數據集，用於確保跨多個分類系統的規模和數據隱私的TableQA。
HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies

Jun 16

ByWilliam Watson, Nicole Cho, Tucker Balch, Manuela Veloso

一致性的平方：具有潛在一致性模型的一致且快速的3D繪畫
Consistency^2: Consistent and Fast 3D Painting with Latent Consistency Models

Jun 17

ByTianfu Wang, Anton Obukhov, Konrad Schindler

深度貝葉斯主動學習用於大型語言模型中的偏好建模
Deep Bayesian Active Learning for Preference Modeling in Large Language Models

Jun 14

ByLuckeciano C. Melo, Panagiotis Tigas, Alessandro Abate, Yarin Gal