AI研究论文每日精选

每日精选AI研究论文及翻译

MMDU：用于LVLMs的多轮多图像对话理解基准和指令调优数据集
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

Jun 17

ByZiyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang

生成自然且有意义的回复以与多模态人类输入进行交流是大型视觉语言模型（LVLMs）的基本能力。尽管当前开源的LVLMs在简化场景（如单轮单图像输入）中表现出有希望的性能，但在现实世界的对话场景（如在具有多轮和多图像的长篇历史中遵循指令）中表现不佳。现有的LVLM基准主要关注单选问题或简短回复，这并不能充分评估LVLMs在现实世界人机交互应用中的能力。因此，我们引入了MMDU，一个全面的基准测试，以及MMDU-45k，一个大规模指令调整数据集，旨在评估和提升LVLMs在多轮和多图像对话中的能力。我们使用聚类算法从开源维基百科中找到相关的图像和文本描述，并由人类注释者在GPT-4o模型的帮助下构建问题-回答对。MMDU最多包含18k个图像+文本标记、20个图像和27轮，至少比以前的基准长5倍，对当前的LVLMs提出了挑战。我们对使用MMDU的15个代表性LVLMs进行的深入分析显示，由于缺乏对话指令调整数据，开源LVLMs落后于闭源对手。我们证明，在MMDU-45k上对开源LVLMs进行微调显著弥补了这一差距，生成更长、更准确的对话，并提高了MMDU和现有基准测试的得分（MMStar：+1.1％，MathVista：+1.5％，ChartQA：+1.2％）。我们的贡献为弥合当前LVLM模型与现实世界应用需求之间的差距铺平了道路。该项目可在https://github.com/Liuziyu77/MMDU找到。

DataComp-LM：寻找下一代语言模型的训练集
DataComp-LM: In search of the next generation of training sets for language models

Jun 17

ByJeffrey Li, Alex Fang, Georgios Smyrnis, Maor Ivgi, Matt Jordan, Samir Gadre, Hritik Bansal, Etash Guha, Sedrick Keh, Kushal Arora, Saurabh Garg, Rui Xin, Niklas Muennighoff, Reinhard Heckel, Jean Mercat, Mayee Chen, Suchin Gururangan, Mitchell Wortsman, Alon Albalak, Yonatan Bitton, Marianna Nezhurina, Amro Abbas, Cheng-Yu Hsieh, Dhruba Ghosh, Josh Gardner, Maciej Kilian, Hanlin Zhang, Rulin Shao, Sarah Pratt, Sunny Sanyal, Gabriel Ilharco, Giannis Daras, Kalyani Marathe, Aaron Gokaslan, Jieyu Zhang, Khyathi Chandu, Thao Nguyen, Igor Vasiljevic, Sham Kakade, Shuran Song, Sujay Sanghavi, Fartash Faghri, Sewoong Oh, Luke Zettlemoyer, Kyle Lo, Alaaeldin El-Nouby, Hadi Pouransari, Alexander Toshev, Stephanie Wang, Dirk Groeneveld, Luca Soldani, Pang Wei Koh, Jenia Jitsev, Thomas Kollar, Alexandros G. Dimakis, Yair Carmon, Achal Dave, Ludwig Schmidt, Vaishaal Shankar

我们介绍了用于语言模型（LM）的数据比较（DataComp for Language Models，DCLM），这是一个用于受控数据集实验的测试平台，旨在改进语言模型。作为DCLM的一部分，我们提供了一个标准语料库，包括从Common Crawl提取的240T标记，基于OpenLM框架的有效预训练配方，以及一个包含53个下游评估的广泛套件。参与DCLM基准测试的参与者可以尝试不同的数据策略，如去重、过滤和数据混合，模型规模范围从412M到7B参数。作为DCLM的基准线，我们进行了大量实验，发现基于模型的过滤对于构建高质量的训练集至关重要。由此产生的数据集，DCLM-Baseline，可以从头开始训练一个7B参数的语言模型，在2.6T训练标记上实现64%的5-shot准确率。与先前的开放数据语言模型最先进技术MAP-Neo相比，DCLM-Baseline在MMLU上表示提高了6.6个百分点，同时使用的计算资源减少了40%。我们的基准模型还与Mistral-7B-v0.3和Llama 3 8B在MMLU上表现相当（63%和66%），并在53个自然语言理解任务的平均表现上与Llama 3 8B相比，使用的计算资源减少了6.6倍。我们的结果突出了数据集设计对于训练语言模型的重要性，并为进一步研究数据策划提供了一个起点。

mDPO：多模态大型语言模型的条件偏好优化
mDPO: Conditional Preference Optimization for Multimodal Large Language Models

Jun 17

ByFei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen

直接偏好优化（DPO）已被证明是大型语言模型（LLM）对齐的有效方法。最近的研究尝试将DPO应用于多模态场景，但发现难以实现一致改进。通过比较实验，我们确定了多模态偏好优化中的无条件偏好问题，即模型忽视了图像条件。为解决这一问题，我们提出了mDPO，一种多模态DPO目标，通过优化图像偏好来防止仅优化语言偏好的过度优先。此外，我们引入了奖励锚点，强制奖励对所选响应为正，从而避免其概率降低——这是相对偏好优化的固有问题。对两种不同规模的多模态LLM和三个广泛使用的基准进行的实验表明，mDPO有效解决了多模态偏好优化中的无条件偏好问题，并显著提高了模型性能，特别是在减少幻觉方面。

THEANINE：通过时间轴增强响应生成重新审视长期对话中的记忆管理
THEANINE: Revisiting Memory Management in Long-term Conversations with Timeline-augmented Response Generation

Jun 16

BySeo Hyun Kim, Kai Tzu-iunn Ong, Taeyoon Kwon, Namyoung Kim, Keummin Ka, SeongHyeon Bae, Yohan Jo, Seung-won Hwang, Dongha Lee, Jinyoung Yeo

大型语言模型（LLMs）能够在与用户长时间互动过程中处理漫长的对话历史，而无需额外的记忆模块；然而，它们的回复往往会忽视或错误地回忆起过去的信息。在本文中，我们重新审视了在LLMs时代中增强记忆的响应生成。虽然先前的工作侧重于摆脱过时的记忆，但我们认为这些记忆可以提供上下文线索，帮助对话系统理解过去事件的发展，从而有助于响应生成。我们提出Theanine，这是一个框架，通过记忆时间线（展示相关过去事件发展和因果关系的一系列记忆）来增强LLMs的响应生成。除了Theanine，我们还介绍了TeaFarm，这是一个以反事实驱动的问答流程，解决了长期对话中G-Eval的局限性。我们的方法的补充视频和用于TeaFarm评估的TeaBag数据集可在https://theanine-693b0.web.app/找到。

MeshAnything：使用自回归Transformer进行艺术家创建的网格生成
MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

Jun 14

ByYiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Xin Chen, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, Chi Zhang

最近，通过重建和生成创建的3D资产已经达到了手工制作资产的质量，突显了它们作为替代品的潜力。然而，这种潜力在很大程度上尚未得到实现，因为这些资产总是需要转换为网格以用于3D行业应用，而当前网格提取方法生成的网格明显劣于由人类艺术家创建的网格（AMs）。具体而言，当前的网格提取方法依赖于密集面并忽略几何特征，导致低效率、复杂的后处理和较低的表示质量。为了解决这些问题，我们引入了MeshAnything，这是一个将网格提取视为生成问题的模型，可以生成与指定形状对齐的AMs。通过将任何3D表示中的3D资产转换为AMs，MeshAnything可以与各种3D资产生产方法集成，从而增强它们在整个3D行业中的应用。MeshAnything的架构包括一个VQ-VAE和一个形状条件的仅解码器变压器。我们首先使用VQ-VAE学习网格词汇，然后在此词汇上训练形状条件的仅解码器变压器，用于形状条件的自回归网格生成。我们广泛的实验证明，我们的方法生成的AMs面数少了数百倍，显著提高了存储、渲染和模拟效率，同时实现了与先前方法可比的精度。

大型语言模型在预训练过程中如何获取事实知识？
How Do Large Language Models Acquire Factual Knowledge During Pretraining?

Jun 17

ByHoyeon Chang, Jinho Park, Seonghyeon Ye, Sohee Yang, Youngkyung Seo, Du-Seong Chang, Minjoon Seo

尽管最近观察到大型语言模型（LLMs）可以存储大量事实知识，但对它们通过预训练获取事实知识的机制了解有限。本研究通过研究LLMs在预训练过程中获取事实知识的方式来填补这一空白。研究结果揭示了关于预训练过程中事实知识获取动态的几个重要见解。首先，令人意外的是，我们观察到在更多数据上进行预训练并没有显著改善模型获取和保持事实知识的能力。接下来，训练步骤与事实知识的记忆和泛化遗忘之间存在幂律关系，使用重复训练数据训练的LLMs表现出更快的遗忘速度。第三，使用更大的批量大小训练LLMs可以增强模型对遗忘的稳健性。总体而言，我们的观察表明，LLMs在预训练中获取事实知识是通过逐步增加每一步中预训练数据中呈现的事实知识的概率实现的。然而，这种增加会被随后的遗忘所稀释。基于这一解释，我们证明可以对LLMs最近观察到的行为提供合理解释，例如LLMs在长尾知识上表现不佳以及去重预训练语料库的好处。

VideoLLM-online：用于流媒体视频的在线视频大型语言模型
VideoLLM-online: Online Video Large Language Model for Streaming Video

Jun 17

ByJoya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou

最近的大型语言模型已经增强了视觉能力，使它们能够理解图像、视频和交织的视觉-语言内容。然而，这些大型多模态模型的学习方法通常将视频视为预定的片段，使它们在处理流式视频输入时效果和效率较低。在本文中，我们提出了一种新颖的视频流学习（LIVE）框架，该框架能够在连续视频流中实现时间对齐、长上下文和实时对话。我们的LIVE框架包括全面的方法，以实现视频流对话，包括：（1）设计用于连续流输入的语言建模训练目标，（2）将离线时间标注转换为流式对话格式的数据生成方案，以及（3）优化的推理流程，以加速模型在现实世界视频流中的响应速度。通过我们的LIVE框架，我们基于Llama-2/Llama-3构建了VideoLLM-online模型，并展示了它在处理流式视频方面的显著优势。例如，平均而言，我们的模型可以在A100 GPU上以每秒超过10帧的速度支持5分钟视频片段的流式对话。此外，它还展示了在公共离线视频基准测试中的最新性能，如识别、字幕和预测。代码、模型、数据和演示可在https://showlab.github.io/videollm-online获取。

一种简单且有效的基于L2范数的KV缓存压缩策略
A Simple and Effective L_2 Norm-Based Strategy for KV Cache Compression

Jun 17

ByAlessio Devoto, Yu Zhao, Simone Scardapane, Pasquale Minervini

大型语言模型（LLMs）的部署经常受到键-值（KV）缓存的大量内存需求的阻碍，特别是随着上下文长度的增加。现有的减小KV缓存大小的方法包括微调模型以学习压缩策略或利用注意力分数减少序列长度。我们分析了仅包含解码器的基于Transformer的模型中的注意力分布，并观察到大多数层中的注意力分配模式保持一致。令人惊讶的是，我们发现缓存的KV对中的L_2和注意力分数之间存在明显的相关性，其中键嵌入的低L_2通常会导致解码过程中的高注意力分数。这一发现表明，KV对的影响可能在被查询之前就由键嵌入本身确定。基于这一观察，我们根据键嵌入的L_2压缩KV缓存。我们的实验结果显示，这一简单策略可以在语言建模和寻找针在一堆草中的任务中将KV缓存大小减少50％，在密码检索任务中减少90％，而不会丢失准确性。

GAMA：具有先进音频理解和复杂推理能力的大型音频语言模型
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

Jun 17

BySreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha

感知和理解非语音声音和非语言语音对于做出有助于我们与周围环境互动的决策至关重要。在本文中，我们提出了GAMA，一种新颖的通用大型音频语言模型（LALM），具有先进的音频理解和复杂推理能力。我们通过将LLM与多种类型的音频表示集成，包括来自自定义音频Q-Former的特征，以及一个多层聚合器，用于聚合来自音频编码器多个层的特征，来构建GAMA。我们在大规模音频语言数据集上对GAMA进行微调，从而增强其音频理解能力。接下来，我们提出CompA-R（用于复杂音频推理的指令微调），这是一个合成生成的指令微调（IT）数据集，其中包含需要模型对输入音频执行复杂推理的指令。我们使用CompA-R对GAMA进行指令微调，赋予其复杂推理能力，进一步通过利用输入音频的事件标签添加一个高级语义证据的软提示作为输入。最后，我们还提出CompA-R-test，一个人工标记的评估数据集，用于评估LALM在需要复杂推理的开放式音频问答任务上的能力。通过自动化和专家人工评估，我们展示了GAMA在各种音频理解任务上的表现优于文献中所有其他LALM，优势范围为1%-84%。此外，通过CompA-R的IT，GAMA在复杂推理和遵循指令能力方面表现出更高水平。

探讨大型语言模型在提示编码中对扩散模型的作用
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models

Jun 17

ByBingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu

基于仅解码器的大型语言模型（LLMs）已经展示出比CLIP和T5系列模型更优越的文本理解能力。然而，如何在文本到图像扩散模型中利用当前先进的LLMs的范式仍有待探索。我们观察到一个不寻常的现象：直接将大型语言模型用作提示编码器会显著降低图像生成中的提示跟随能力。我们确定了这个问题背后的两个主要障碍。一个是LLM中下一个标记预测训练与扩散模型中所需的区分性提示特征之间的不一致。另一个是解码器-仅架构引入的固有位置偏见。为了解决这个问题，我们提出了一个新颖的框架，充分利用LLMs的能力。通过精心设计的使用指南，我们有效增强了提示编码的文本表示能力，并消除了其固有的位置偏见。这使我们能够灵活地将最先进的LLMs集成到文本到图像生成模型中。此外，我们还提供了一种有效的方法将多个LLMs融入我们的框架中。考虑到变压器架构展示的出色性能和扩展能力，我们进一步设计了基于该框架的LLM-注入扩散变压器（LI-DiT）。我们进行了大量实验来验证LI-DiT在模型大小和数据大小上的性能。由于LLMs的固有能力和我们的创新设计，LI-DiT的提示理解性能轻松超越了最先进的开源模型以及主流的闭源商业模型，包括Stable Diffusion 3、DALL-E 3和Midjourney V6。经过进一步优化和安全检查，强大的LI-DiT-10B将很快推出。

MINT-1T：将开源多模态数据扩展10倍：一个包含万亿标记的多模态数据集
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

Jun 17

ByAnas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Kumar Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt

多模交错数据集对于训练前沿大型多模型（LMMs）至关重要，其中包含自由形式交错的图像和文本序列。尽管开源LMMs迅速发展，但大规模、多样化的开源多模交错数据集仍然极度稀缺。为此，我们介绍了迄今为止规模最大、最多样化的开源多模交错数据集MINT-1T。MINT-1T包含一万亿文本标记和三十亿图像，是现有开源数据集的10倍规模。此外，我们还包括了之前未开发的来源，如PDF和ArXiv论文。由于扩展多模交错数据集需要大量工程工作，分享数据整理过程并发布数据集将极大地造福社区。我们的实验表明，在MINT-1T上训练的LMMs与之前领先数据集OBELICS上训练的模型性能相媲美。我们的数据和代码将在https://github.com/mlfoundations/MINT-1T上发布。

上下文编辑：从自我诱导分布中学习知识
In-Context Editing: Learning Knowledge from Self-Induced Distributions

Jun 17

BySiyuan Qi, Bangcheng Yang, Kailin Jiang, Xiaobo Wang, Jiaqi Li, Yifan Zhong, Yaodong Yang, Zilong Zheng

现有的语言模型微调范式在知识编辑场景中表现脆弱，即模型必须在无需进行大量重新训练的情况下整合新信息。这种脆弱性通常导致过拟合、性能降低和生成不自然语言。为了解决这一问题，我们提出了一种名为一致上下文编辑（ICE）的新方法，利用模型的上下文学习能力朝向上下文分布进行调整，而非单热目标。ICE引入了一个简单的优化框架，包括目标和过程，增强了基于梯度调整方法的鲁棒性和有效性。我们从知识编辑的四个关键方面：准确性、局部性、泛化性和语言质量，提供了ICE的分析见解，展示了其优势。在四个数据集上的实验结果证实了ICE的有效性，并展示了其在持续编辑方面的潜力，确保更新的信息被整合同时保持模型的完整性。

LLaNA：大型语言和NeRF助手
LLaNA: Large Language and NeRF Assistant

Jun 17

ByAndrea Amaduzzi, Pierluigi Zama Ramirez, Giuseppe Lisanti, Samuele Salti, Luigi Di Stefano

多模态大型语言模型（MLLMs）已经展示出对图像和3D数据的出色理解能力。然而，这两种模态在全面捕捉物体外观和几何特征方面存在不足。与此同时，神经辐射场（NeRFs）通过在简单的多层感知器（MLP）的权重中编码信息，已经成为一种日益普及的模态，可以同时编码物体的几何结构和照片般逼真的外观。本文研究了将NeRF融入MLLM的可行性和有效性。我们创建了LLaNA，这是第一个通用的NeRF-语言助手，能够执行NeRF字幕和问答等新任务。值得注意的是，我们的方法直接处理NeRF的MLP权重，提取有关所代表物体的信息，无需渲染图像或实现3D数据结构。此外，我们构建了一个包含文本注释的NeRF数据集，用于各种NeRF-语言任务，无需人工干预。基于这个数据集，我们开发了一个基准来评估我们方法的NeRF理解能力。结果显示，处理NeRF权重在性能上优于从NeRF中提取2D或3D表示。

从像素到文本：一个大规模的密集图像描述数据集
From Pixels to Prose: A Large Dataset of Dense Image Captions

Jun 14

ByVasu Singla, Kaiyu Yue, Sukriti Paul, Reza Shirkavand, Mayuka Jayawardhana, Alireza Ganjdanesh, Heng Huang, Abhinav Bhatele, Gowthami Somepalli, Tom Goldstein

训练大型视觉语言模型需要大量高质量的图像文本对。然而，现有的网络抓取数据集存在噪音且缺乏详细的图像描述。为了弥补这一差距，我们引入了PixelProse，这是一个包含超过1600万个合成生成的标题的综合数据集，利用先进的视觉语言模型进行详细和准确的描述。为了确保数据完整性，我们对数据集进行了严格的分析，包括检测问题内容，如儿童性虐待材料（CSAM）、个人身份信息（PII）和有害内容。我们还提供有价值的元数据，如水印存在和美学评分，有助于进一步筛选数据集。我们希望PixelProse能成为未来视觉语言研究的宝贵资源。PixelProse可在以下链接获取：https://huggingface.co/datasets/tomg-group-umd/pixelprose

WPO：利用加权偏好优化增强RLHF
WPO: Enhancing RLHF with Weighted Preference Optimization

Jun 17

ByWenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu

人类反馈强化学习（RLHF）是使大型语言模型（LLMs）与人类价值观更加契合的一个有前途的解决方案。离策略偏好优化，其中偏好数据来自其他模型，因其成本效益和可扩展性而被广泛采用。然而，离策略偏好优化经常受到用于数据收集的策略与目标策略之间的分布差距的困扰，导致次优的优化。在本文中，我们提出了一种新颖的策略，通过模拟离策略偏好数据的策略学习来缓解这一问题。我们的加权偏好优化（WPO）方法通过根据它们在当前策略下的概率重新加权偏好对，使离策略数据更接近于策略数据。这种方法不仅解决了分布差距问题，还增强了优化过程，而不会增加额外成本。我们在包括Alpaca Eval 2和MT-bench在内的指令跟随基准上验证了我们的方法。WPO不仅在Alpaca Eval 2上比直接偏好优化（DPO）高出多达5.6％，而且基于Llama-3-8B-Instruct，对GPT-4-turbo取得了令人瞩目的长度控制胜率48.6％，使其成为排行榜上最强大的8B模型。我们将在https://github.com/wzhouad/WPO发布代码和模型。

Pandora：通过自然语言操作和视频状态实现通用世界模型
Pandora: Towards General World Model with Natural Language Actions and Video States

Jun 12

ByJiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning, Yuheng Zha, Zeyu Feng, Tianhua Tao, Shibo Hao, Yemin Shi, Zhengzhong Liu, Eric P. Xing, Zhiting Hu

世界模型根据不同的行动模拟未来的世界状态。它们促进了交互式内容的创建，并为基于现实、长期推理提供了基础。当前的基础模型并未完全满足通用世界模型的能力要求：大型语言模型（LLMs）受限于对语言形式的依赖以及对物理世界的有限理解，而视频模型则缺乏对世界模拟的交互式行动控制。本文通过引入 Pandora，一种混合自回归扩散模型，迈出了构建通用世界模型的一步，该模型通过生成视频模拟世界状态，并允许通过自由文本行动进行实时控制。Pandora 通过大规模预训练和指导调整实现了领域通用性、视频一致性和可控性。关键是，Pandora 通过集成预训练的大型语言模型（7B）和预训练的视频模型，避免了从头开始训练的成本，仅需要额外的轻量级微调。我们展示了 Pandora 在不同领域（室内/室外、自然/城市、人类/机器人、2D/3D 等）的广泛输出。结果表明，通过更大规模的训练，构建更强大的通用世界模型具有巨大潜力。

WildVision：利用人类偏好在真实环境中评估视觉-语言模型
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences

Jun 16

ByYujie Lu, Dongfu Jiang, Wenhu Chen, William Yang Wang, Yejin Choi, Bill Yuchen Lin

最近视觉-语言模型（VLMs）方面的突破强调了在真实世界多模态交互中基准人类偏好的必要性。为了填补这一空白，我们推出了WildVision-Arena（WV-Arena），这是一个在线平台，用于收集人类偏好以评估VLMs。我们通过在WV-Arena中选择8000个用户提交中的500个高质量样本，策划了WV-Bench。WV-Bench使用GPT-4作为评判者，将每个VLM与Claude-3-Sonnet进行比较，与WV-Arena Elo达到0.94的Spearman相关性。这明显优于其他基准，如MMVet、MMMU和MMStar。我们对2万个真实世界交互的全面分析揭示了表现最佳的VLMs的失败案例的重要见解。例如，我们发现，尽管GPT-4V在简单的视觉识别和推理任务中超过了许多其他模型，如Reka-Flash、Opus和Yi-VL-Plus，但它仍然面临着对微妙的上下文线索、空间推理、视觉想象力和专家领域知识的挑战。此外，当前的VLMs在故意挑衅时存在幻觉和安全问题。我们将发布我们的聊天和反馈数据，以进一步推动VLMs领域的研究。

L4GM：大型4D高斯重建模型
L4GM: Large 4D Gaussian Reconstruction Model

Jun 14

ByJiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling

我们提出了L4GM，这是第一个4D大型重建模型，可以从单视角视频输入中生成动画对象 - 仅需一次前馈传递，仅需一秒钟。我们成功的关键在于一个新颖的数据集，其中包含来自Objaverse的经过筛选和渲染的多视角视频动画对象。该数据集展示了44K个不同的对象，包含110K个动画，在48个视角下渲染，共生成了1200万个视频，总共包含3亿帧。为了实现可扩展性，我们保持了L4GM的简单性，并直接在预训练的3D大型重建模型LGM的基础上构建。LGM从多视角图像输入中输出3D高斯椭球体。L4GM从以低帧率采样的视频帧中输出逐帧的3D高斯飞溅表示，然后将表示上采样到更高的帧率以实现时间上的平滑。我们在基础LGM中添加了时间自注意力层，以帮助其学习跨时间的一致性，并利用每个时间步的多视角渲染损失来训练模型。通过训练一个插值模型，将表示上采样到更高的帧率，该模型产生中间的3D高斯表示。我们展示了，仅在合成数据上训练的L4GM在野外视频上表现出色，生成高质量的动画3D资产。

通过文档截图嵌入实现多模态检索的统一化
Unifying Multimodal Retrieval via Document Screenshot Embedding

Jun 17

ByXueguang Ma, Sheng-Chieh Lin, Minghan Li, Wenhu Chen, Jimmy Lin

在现实世界中，文档以不同格式和多样的形式进行组织。传统的检索流程需要定制的文档解析技术和内容提取模块来准备索引的输入。这一过程繁琐、容易出错，并且存在信息丢失的问题。为此，我们提出了文档截图嵌入（DSE），这是一种新颖的检索范式，将文档截图视为统一的输入格式，无需任何内容提取预处理，并保留文档中的所有信息（如文本、图像和布局）。DSE利用大型视觉-语言模型，直接将文档截图编码为用于检索的密集表示。为了评估我们的方法，我们首先创建了Wiki-SS数据集，这是一个包含130万条维基百科网页截图的语料库，用于回答自然问题数据集中的问题。在这种文本密集型文档检索设置中，DSE表现出与依赖解析的其他文本检索方法相比具有竞争力的有效性。例如，在top-1检索准确性方面，DSE比BM25高出17个百分点。此外，在幻灯片检索的混合模态任务中，DSE在nDCG@10方面明显优于OCR文本检索方法超过15个百分点。这些实验表明，DSE是一种有效的适用于各种文档类型的文档检索范式。模型检查点、代码和Wiki-SS收集将会发布。

任务问我任何事
Task Me Anything

Jun 17

ByJieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michel, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna

大型多模态语言模型（MLM）的基准现在用于同时评估模型的整体能力，而不是评估特定能力。因此，当开发人员想要确定哪些模型适用于其应用时，他们会被大量基准所淹没，并且对哪个基准结果最能反映其特定用例感到不确定。本文介绍了Task-Me-Anything，这是一个生成定制基准的引擎，以满足用户需求。Task-Me-Anything保持了一个可扩展的视觉资产分类法，并可以以程序化方式生成大量任务实例。此外，它通过算法有效地回答用户关于MLM性能的查询，而且在计算预算内。它包含113K张图片，10K个视频，2K个3D物体资产，超过365个物体类别，655个属性和335个关系。它可以生成750M个图像/视频问答对，重点评估MLM的感知能力。Task-Me-Anything揭示了一些关键见解：开源MLM在物体和属性识别方面表现出色，但缺乏空间和时间理解；每个模型都有独特的优势和劣势；通常较大的模型表现更好，尽管也存在例外情况；而GPT4o在识别旋转/移动物体和区分颜色方面存在挑战。

Vid3D：使用2D视频扩散合成动态3D场景
Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion

Jun 17

ByRishab Parthasarathy, Zack Ankner, Aaron Gokaslan

计算机视觉的一个最新前沿是3D视频生成任务，即生成场景的时间变化的3D表示。为了生成动态的3D场景，当前方法通过联合优化场景的时间和视图的一致性来明确建模3D时间动态。在本文中，我们研究当前方法是否需要像现有方法那样明确强制执行随时间的多视图一致性，或者模型独立生成每个时间步的3D表示是否足够。因此，我们提出了一个名为Vid3D的模型，它利用2D视频扩散通过首先生成视频时间动态的2D“种子”，然后独立为种子视频中的每个时间步生成3D表示。我们将Vid3D与两种最先进的3D视频生成方法进行了评估，并发现尽管不明确建模3D时间动态，Vid3D实现了可比较的结果。我们进一步消融了Vid3D的质量如何取决于每帧生成的视图数量。虽然我们观察到视图较少时会有一些降级，但性能降级仍然较小。因此，我们的结果表明，为了生成高质量的动态3D场景，可能并不需要3D时间知识，这可能为该任务提供了更简单的生成算法。

神经网络在实践中到底有多灵活？
Just How Flexible are Neural Networks in Practice?

Jun 17

ByRavid Shwartz-Ziv, Micah Goldblum, Arpit Bansal, C. Bayan Bruss, Yann LeCun, Andrew Gordon Wilson

广泛认为神经网络可以拟合包含至少与其参数数量相同样本的训练集，支持过度参数化和不足参数化模型的概念。然而，在实践中，我们只能找到通过我们的训练过程（包括优化器和正则化器）可访问的解决方案，这限制了灵活性。此外，函数类的精确参数化，内置于架构中，塑造了其损失曲面并影响我们发现的极小值。在这项工作中，我们研究神经网络在实践中拟合数据的能力。我们的研究结果表明：（1）标准优化器找到的极小值只能拟合具有明显较少样本数量的训练集的模型；（2）卷积网络在随机标记数据上比MLP和ViTs更具参数效率；（3）尽管随机训练被认为具有正则化效果，但随机梯度下降实际上找到比全批量梯度下降更多训练数据的极小值；（4）拟合正确标记和错误标记样本的能力差异可以预测泛化能力；（5）ReLU激活函数导致找到更多数据的极小值，尽管它们被设计用于避免深度架构中的梯度消失和梯度爆炸。

人工智能中的幽默：大规模众包偏好和基准，用于卡通字幕。
Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning

Jun 15

ByJifan Zhang, Lalit Jain, Yang Guo, Jiayi Chen, Kuan Lok Zhou, Siddharth Suresh, Andrew Wagenmaker, Scott Sievert, Timothy Rogers, Kevin Jamieson, Robert Mankoff, Robert Nowak

我们提出了一个新颖的多模态偏好数据集，用于创意任务，包括在过去八年中通过众包方式收集的《纽约客》每周漫画标题比赛的超过2.2百万个标题上的2.5亿人类评分。这一独特的数据集支持多模态大型语言模型的开发和评估，以及基于偏好的幽默标题生成算法的微调。我们提出了用于评估模型生成标题质量的新颖基准，利用GPT4和人类判断来建立基于排名的评估策略。我们的实验结果突显了当前微调方法（如RLHF和DPO）在应用于创意任务时的局限性。此外，我们证明即使像GPT4和Claude这样的最先进模型目前在生成幽默标题方面也不如顶尖人类选手表现出色。随着对这一广泛数据收集工作的总结，我们向研究界发布整个偏好数据集，促进AI幽默生成和评估的进一步发展。

在任务类型、应用领域和推理类型之间评估开放式语言模型：一项深入的实验分析
Evaluating Open Language Models Across Task Types, Application Domains, and Reasoning Types: An In-Depth Experimental Analysis

Jun 17

ByNeelabh Sinha, Vinija Jain, Aman Chadha

语言模型（LMs）的迅速崛起扩大了它们在多个应用中的使用。然而，由于模型大小、相关成本或专有限制的限制，利用最先进的（SOTA）大型语言模型并非总是可行的。随着开放、较小的LMs出现，更多应用可以利用它们的能力，但选择合适的LM可能具有挑战性。本研究对10个较小、开放的LMs的输出的语义正确性进行了深入的实验分析，涵盖了任务类型、应用领域和推理类型三个方面，使用多样的提示样式。我们展示了根据具体要求，最有效的模型和提示样式会有所变化。我们的分析提供了对LMs和提示样式的比较评估，使用了一个基于用例和其他约束条件的三层方面模式，以便进行战略选择。我们还表明，如果适当利用，这些LMs可以与DeepSeek-v2、GPT-3.5-Turbo和GPT-4o等SOTA LLMs竞争，有时甚至表现更好。

CoLoR-Filter：用于目标语言模型预训练的条件损失减少过滤器
CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training

Jun 15

ByDavid Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade

在塑造语言模型下游任务性能方面，为预训练选择高质量数据至关重要。一个主要挑战在于确定这个最佳子集，这个问题通常被认为是难以解决的，因此需要可扩展且有效的启发式方法。在这项工作中，我们提出了一种数据选择方法，即CoLoR-Filter（条件损失减少过滤），它利用经验贝叶斯启发式方法，基于两个辅助模型的相对损失值，提出了一个简单且计算高效的选择标准。除了建模原理，我们还在两个语言建模任务上对CoLoR-Filter进行了实证评估：（1）从C4中选择数据，用于领域自适应，以在Books上进行评估；（2）从C4中选择数据，用于一系列下游多项选择问答任务。我们展示了在更积极地子选择更多数据和使用小型辅助模型为大型目标模型选择数据时的有利扩展性。作为一个重要结果，使用一对拥有1.5亿参数的辅助模型选择的CoLoR-Filter数据，可以训练一个拥有12亿参数的目标模型，使其与使用25亿随机选择的tokens训练的拥有12亿参数的模型在Books上的数据量减少25倍，下游任务减少11倍。代码：https://github.com/davidbrandfonbrener/color-filter-olmo 过滤后的数据：https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4

突破注意力瓶颈
Breaking the Attention Bottleneck

Jun 16

ByKalle Hilsenbek

基于注意力的Transformer已成为许多深度学习领域的标准架构，主要因为其能够建模长距离依赖关系并处理可变长度的输入序列。然而，由于其二次复杂度，注意力机制在Transformer架构中成为一个重要瓶颈。该算法在解码器中仅单向，并在过度参数化的仅解码器模型中收敛为静态模式。我通过开发一个作为注意力或激活替代的生成函数来解决这个问题。通过将每个标记与前一个标记进行比较，它仍保持自回归特性。在我的测试设置中，使用nanoGPT可以实现更小的模型同时产生更小的损失。通过合并平均上下文向量，损失进一步降低。这种注意力替代的概念在GNU AGPL v3许可下分发，网址为https://gitlab.com/Bachstelze/causal_generation。

HiddenTables & PyQTax：一个合作游戏和数据集，用于表格问答（TableQA），以确保在众多分类法中实现规模和数据隐私。
HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies

Jun 16

ByWilliam Watson, Nicole Cho, Tucker Balch, Manuela Veloso

大量不同的大型语言模型（LLMs）在上下文分析表格问答任务时面临着共同的挑战。这些挑战源自于（1）大表格的有限上下文窗口，（2）在单元格边界上的多方面标记化模式之间的差异，以及（3）在使用外部模型如gpt-3.5-turbo时由数据保密性带来的各种限制。我们提出了一个名为“HiddenTables”的合作游戏，作为解决这一挑战的潜在方案。实质上，“HiddenTables”是由生成代码的LLM“Solver”和评估LLM代理解决表格QA任务能力的“Oracle”之间进行的游戏。这个游戏基于自然语言模式，并且重要的是确保底层数据的安全性。我们在各种表格上进行了实验证据，展示了LLM在无法泛化和处理复杂查询、处理组合依赖性以及在提供具体表格模式时将自然语言与程序命令对齐方面的集体能力不足。与基于编码器的模型不同，我们已经推动了“HiddenTables”的边界，使其不受行数限制 - 因此我们在提示和完成标记方面表现出更高的效率。我们的基础设施产生了一个新数据集“PyQTax”，涵盖了116,671个问题-表格-答案三元组，并为不同问题分类提供了额外的细分和标签。因此，与我们关于LLM在TableQA任务中不足的学术贡献相辅相成，“HiddenTables”是LLM如何与大规模数据集进行交互，同时确保数据安全性并最小化生成成本的实际体现。

一致性的平方：具有潜在一致性模型的一致且快速的3D绘画
Consistency^2: Consistent and Fast 3D Painting with Latent Consistency Models

Jun 17

ByTianfu Wang, Anton Obukhov, Konrad Schindler

生成式3D绘画是高分辨率3D资产管理和回收中最重要的生产力提升者之一。自从文本到图像模型可以在消费者硬件上进行推断以来，3D绘画方法的性能不断提高，目前已接近平稳状态。大多数这类模型的核心是潜空间中的去噪扩散，这是一个固有的耗时迭代过程。最近已经开发出多种技术来加速生成并将采样迭代次数减少数个数量级。这些技术是为2D生成成像设计的，但并没有提供将其转化为3D的方法。在本文中，我们通过提出适用于当前任务的潜在一致性模型（LCM）来解决这一不足。我们定量和定性地分析了所提出模型的优势和劣势。基于Objaverse数据集样本研究，我们的3D绘画方法在所有评估中均表现出较强的偏好。源代码可在https://github.com/kongdai123/consistency2找到。

大规模语言模型中偏好建模的深度贝叶斯主动学习
Deep Bayesian Active Learning for Preference Modeling in Large Language Models

Jun 14

ByLuckeciano C. Melo, Panagiotis Tigas, Alessandro Abate, Yarin Gal

利用人类偏好来引导大型语言模型（LLMs）的行为在近年来取得了显著成功。然而，数据选择和标记仍然是这些系统的瓶颈，特别是在大规模情况下。因此，选择获取人类反馈的最具信息量的点可能会大大降低偏好标记的成本，并推动LLMs的进一步发展。贝叶斯主动学习提供了一个原则性框架来解决这一挑战，并在不同环境中展现了显著的成功。然而，先前尝试将其用于偏好建模的努力并未达到预期效果。在这项工作中，我们发现天真的认知不确定性估计会导致获取冗余样本。我们通过提出贝叶斯主动学习者用于偏好建模（BAL-PM）来解决这个问题，这是一种新颖的随机获取策略，不仅针对偏好模型中的高认知不确定性点，而且还试图最大化所获取提示在LLM使用的特征空间中的熵。值得注意的是，我们的实验表明BAL-PM在两个流行的人类偏好数据集中需要的偏好标记数量减少了33%至68%，超过了先前的随机贝叶斯获取策略。

AI研究论文每日精选

每日精选AI研究论文及翻译

MMDU：用于LVLMs的多轮多图像对话理解基准和指令调优数据集
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

Jun 17

ByZiyu Liu, Tao Chu, Yuhang Zang, Xilin Wei, Xiaoyi Dong, Pan Zhang, Zijian Liang, Yuanjun Xiong, Yu Qiao, Dahua Lin, Jiaqi Wang

DataComp-LM：寻找下一代语言模型的训练集
DataComp-LM: In search of the next generation of training sets for language models

Jun 17

mDPO：多模态大型语言模型的条件偏好优化
mDPO: Conditional Preference Optimization for Multimodal Large Language Models

Jun 17

ByFei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen

THEANINE：通过时间轴增强响应生成重新审视长期对话中的记忆管理
THEANINE: Revisiting Memory Management in Long-term Conversations with Timeline-augmented Response Generation

Jun 16

BySeo Hyun Kim, Kai Tzu-iunn Ong, Taeyoon Kwon, Namyoung Kim, Keummin Ka, SeongHyeon Bae, Yohan Jo, Seung-won Hwang, Dongha Lee, Jinyoung Yeo

MeshAnything：使用自回归Transformer进行艺术家创建的网格生成
MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

Jun 14

ByYiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Xin Chen, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, Chi Zhang

大型语言模型在预训练过程中如何获取事实知识？
How Do Large Language Models Acquire Factual Knowledge During Pretraining?

Jun 17

ByHoyeon Chang, Jinho Park, Seonghyeon Ye, Sohee Yang, Youngkyung Seo, Du-Seong Chang, Minjoon Seo

VideoLLM-online：用于流媒体视频的在线视频大型语言模型
VideoLLM-online: Online Video Large Language Model for Streaming Video

Jun 17

ByJoya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou

一种简单且有效的基于L2范数的KV缓存压缩策略
A Simple and Effective L_2 Norm-Based Strategy for KV Cache Compression

Jun 17

ByAlessio Devoto, Yu Zhao, Simone Scardapane, Pasquale Minervini

GAMA：具有先进音频理解和复杂推理能力的大型音频语言模型
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

Jun 17

BySreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha

探讨大型语言模型在提示编码中对扩散模型的作用
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models

Jun 17

ByBingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu

MINT-1T：将开源多模态数据扩展10倍：一个包含万亿标记的多模态数据集
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

Jun 17

ByAnas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Kumar Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt

在任务类型、应用领域和推理类型之间评估开放式语言模型：一项深入的实验分析
Evaluating Open Language Models Across Task Types, Application Domains, and Reasoning Types: An In-Depth Experimental Analysis

Jun 17

ByNeelabh Sinha, Vinija Jain, Aman Chadha

CoLoR-Filter：用于目标语言模型预训练的条件损失减少过滤器
CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training

Jun 15

ByDavid Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade

突破注意力瓶颈
Breaking the Attention Bottleneck

Jun 16

ByKalle Hilsenbek

HiddenTables & PyQTax：一个合作游戏和数据集，用于表格问答（TableQA），以确保在众多分类法中实现规模和数据隐私。
HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies

Jun 16

ByWilliam Watson, Nicole Cho, Tucker Balch, Manuela Veloso

一致性的平方：具有潜在一致性模型的一致且快速的3D绘画
Consistency^2: Consistent and Fast 3D Painting with Latent Consistency Models

Jun 17

ByTianfu Wang, Anton Obukhov, Konrad Schindler

大规模语言模型中偏好建模的深度贝叶斯主动学习
Deep Bayesian Active Learning for Preference Modeling in Large Language Models

Jun 14

ByLuckeciano C. Melo, Panagiotis Tigas, Alessandro Abate, Yarin Gal