HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

16 papers found

视觉语言模型是盲目的。
Vision language models are blind

Jul 9

ByPooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

具有视觉能力的大型语言模型（VLMs），例如GPT-4o和Gemini 1.5 Pro，正在驱动无数的图像文本应用，并在许多视觉理解基准测试中得分很高。然而，我们发现VLMs在许多对人类来说极其简单的7个视觉任务上失败了，例如识别（a）两个圆是否重叠；（b）两条线是否相交；（c）一个单词中哪个字母被圈出；以及（d）计算类似奥林匹克标志中圆圈的数量。这四个最先进的VLMs的惊人糟糕表现表明，它们的视觉能力充其量就像一个患有近视的人看到细节模糊，最坏的情况下就像一个聪明的盲人在做有根据的猜测。代码可在以下网址找到：https://vlmsareblind.github.io/

AgentInstruct：朝向具有主体流的生成式教学
AgentInstruct: Toward Generative Teaching with Agentic Flows

Jul 3

ByArindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah

合成数据对于加速语言模型的开发变得越来越重要，无论是大型还是小型模型。尽管有几个成功的用例，研究人员也提出了关于模型崩溃和模仿其他模型的缺点的担忧。这种差异可以归因于合成数据在质量和多样性上的变化。有效利用合成数据通常需要大量人力来筛选数据。我们专注于将合成数据用于后训练，特别是通过强大模型创建数据，以教授新技能或行为给另一个模型，我们将这种情境称为生成式教学。我们介绍了AgentInstruct，一个可扩展的主体框架，用于自动创建大量多样且高质量的合成数据。AgentInstruct可以创建提示和响应，仅使用文本文档和代码文件等原始数据源作为种子。我们通过创建一个后训练数据集，包含2500万对，用于教授语言模型不同的技能，如文本编辑、创意写作、工具使用、编码、阅读理解等，展示了AgentInstruct的实用性。该数据集可用于任何基础模型的指导调整。我们使用这些数据对Mistral-7b进行后训练。将结果模型Orca-3与Mistral-7b-Instruct（使用相同基础模型）进行比较，我们观察到在许多基准测试中有显著改进。例如，在AGIEval上有40%的改进，在MMLU上有19%的改进，在GSM8K上有54%的改进，在BBH上有38%的改进，在AlpacaEval上有45%的改进。此外，它始终优于其他模型，如LLAMA-8B-instruct和GPT-3.5-turbo。

智能体的互联网：编织异构智能体的协作智能网络
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence

Jul 9

ByWeize Chen, Ziming You, Ran Li, Yitong Guan, Chen Qian, Chenyang Zhao, Cheng Yang, Ruobing Xie, Zhiyuan Liu, Maosong Sun

大型语言模型（LLMs）的快速发展为高度能力的自主代理的发展铺平了道路。然而，现有的多代理框架往往在整合不同能力的第三方代理方面遇到困难，因为它们依赖于在其自身生态系统中定义的代理。它们还面临着在模拟分布式环境方面的挑战，因为大多数框架仅限于单设备设置。此外，这些框架通常依赖于硬编码的通信管道，限制了它们对动态任务需求的适应性。受互联网概念启发，我们提出了代理互联网（IoA），这是一个通过提供灵活且可扩展的平台来解决这些限制的新型框架，用于基于LLM的多代理协作。IoA引入了代理集成协议、类似即时通讯的架构设计以及用于代理组建和对话流控制的动态机制。通过对一般助理任务、具身人工智能任务和检索增强生成基准的广泛实验，我们证明IoA始终优于最先进的基准线，展示了它促进异构代理之间有效协作的能力。IoA代表了迈向在类似互联网环境中连接不同代理的一步，代理可以无缝协作以实现更高的智能和能力。我们的代码库已发布在https://github.com/OpenBMB/IoA。

Video-STaR：自训练使视频指导调整具有任何监督
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

Jul 8

ByOrr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy

大型视觉语言模型（LVLMs）的性能取决于它们的训练数据集的大小和质量。现有的视频指导微调数据集缺乏多样性，因为它们是通过提示大型语言模型使用视频字幕生成问题-答案对而衍生的，因此主要是描述性的。与此同时，存在许多带有多样标签和监督的标记视频数据集，然而，我们发现将它们整合到LVLMs中并不是一件简单的事情。在这里，我们提出了带有增强推理的视频自训练（Video-STaR），这是第一个视频自训练方法。Video-STaR允许利用任何带有标签的视频数据集进行视频指导微调。在Video-STaR中，LVLM在指导生成和微调之间循环，我们展示了（I）改善了一般视频理解，以及（II）使LVLMs适应具有现有监督的新领域任务。在生成过程中，LVLM被提示提出一个答案。然后仅筛选包含原始视频标签的答案，并随后对生成的数据集进行重新训练。通过仅对包含正确视频标签的生成答案进行训练，Video-STaR利用这些现有视频标签作为视频指导微调的弱监督。我们的结果表明，Video-STaR增强的LVLMs在（I）一般视频问答方面表现出改进，其中TempCompass的性能提高了10％，以及（II）在下游任务中，Video-STaR将Kinetics700-QA的准确性提高了20％，并将FineDiving的动作质量评估提高了15％。

RodinHD：使用扩散模型实现高保真度的3D头像生成
RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

Jul 9

ByBowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo

我们提出了RodinHD，它可以从一张肖像图像生成高保真度的3D头像。现有方法无法捕捉复杂的细节，比如发型，而我们在本文中解决了这个问题。我们首先确定了一个被忽视的问题，即在许多头像上顺序拟合三面体时出现的灾难性遗忘问题，这是由MLP解码器共享方案引起的。为了克服这个问题，我们提出了一种新颖的数据调度策略和权重合并正则化项，这提高了解码器呈现更清晰细节的能力。此外，我们通过计算一个更精细的分层表示来优化肖像图像的引导效果，捕捉丰富的2D纹理线索，并通过交叉注意力将它们注入到3D扩散模型的多个层中。当在经过针对三面体优化的噪声调度下训练了46K个头像后，生成的模型可以生成具有明显更好细节的3D头像，且能够泛化到野外肖像输入。

将LLM调整到希伯来语：揭示具有增强词汇量和指导能力的DictaLM 2.0
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities

Jul 9

ByShaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel

在低资源语言（如希伯来语）中训练大型语言模型(LLMs)面临独特挑战。本文介绍了DictaLM2.0和DictaLM2.0-Instruct，这两个LLMs源自Mistral模型，使用大约2000亿个标记在希伯来语和英语中进行训练。将预训练模型调整到新语言涉及专门技术，与从头开始训练模型或在英语等资源充足的语言上进一步训练现有模型有显著不同。我们概述了这些新颖的训练方法，有助于有效学习和适应希伯来语的语言特性。此外，我们在广泛的指导数据集上对DictaLM2.0-Instruct进行了微调，以提高其在特定任务指令上的性能。为了严格评估我们的模型，我们引入了一个新的希伯来语LLM评估基准套件，涵盖了一系列任务，包括问答、情感分析、Winograd Schema挑战、翻译和摘要。我们的工作不仅解决了在低资源语言中训练LLMs的复杂性，还提出了一个框架，可用于将其他LLMs调整到各种非英语语言，为多语言自然语言处理领域做出贡献。

MiraData：一个具有长时长和结构化字幕的大规模视频数据集
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

Jul 8

ByXuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan

Sora的高运动强度和持续时间长的视频显著影响了视频生成领域，吸引了空前的关注。然而，现有的公开可用数据集无法生成类似Sora的视频，因为它们主要包含持续时间短、运动强度低和简短标题的视频。为解决这些问题，我们提出了MiraData，这是一个高质量视频数据集，超越了先前数据集在视频持续时间、标题细节、运动强度和视觉质量方面的限制。我们从多样化、手动选择的来源中精心筛选MiraData，并对数据进行精心处理，以获得语义一致的片段。我们采用GPT-4V对结构化标题进行注释，从四个不同角度提供详细描述以及总结的密集标题。为了更好地评估视频生成中的时间一致性和运动强度，我们引入了MiraBench，通过添加3D一致性和基于跟踪的运动强度度量来增强现有基准。MiraBench包括150个评估提示和17个指标，涵盖时间一致性、运动强度、3D一致性、视觉质量、文本-视频对齐和分布相似性。为了展示MiraData的实用性和有效性，我们使用基于DiT的视频生成模型MiraDiT进行实验。在MiraBench上的实验结果显示了MiraData的优越性，尤其在运动强度方面。

BM25S：通过急切稀疏评分实现数量级更快的词汇搜索
BM25S: Orders of magnitude faster lexical search via eager sparse scoring

Jul 4

ByXing Han Lù

我们介绍了BM25S，这是一个基于Python的高效实现，仅依赖于Numpy和Scipy。与最流行的基于Python的框架相比，BM25S 的速度提高了多达500倍，这是通过在索引期间急切计算BM25分数并将其存储到稀疏矩阵中实现的。与高度优化的基于Java的实现相比，BM25S 也实现了相当大的速度提升，这些实现被流行的商业产品所使用。最后，BM25S 通过将急切评分扩展到非稀疏变体，并使用一种新颖的分数偏移方法，复制了基于Kamphuis等人（2020年）的五种BM25变体的确切实现。代码可在 https://github.com/xhluca/bm25s 找到。

定理Llama：将通用LLM转化为Lean4专家
TheoremLlama: Transforming General-Purpose LLMs into Lean4 Experts

Jul 3

ByRuida Wang, Jipeng Zhang, Yizhen Jia, Rui Pan, Shizhe Diao, Renjie Pi, Tong Zhang

利用像 Lean 这样的计算机可验证形式语言证明数学定理显著影响数学推理。一种形式定理证明的方法涉及使用基于自然语言 (NL) 证明的大型语言模型 (LLMs) 生成完整证明。类似的方法在代码生成方面显示出有希望的结果。然而，大多数现代 LLMs 由于缺乏对齐的 NL 和形式语言 (FL) 定理证明数据而表现出次优性能。这种稀缺性导致缺乏用于训练 LLMs 和充分利用其能力来组成形式证明的方法论。为了解决这些挑战，本文提出了**TheoremLlama**，一个端到端框架，用于训练通用 LLM 成为 Lean4 专家。该框架包括 NL-FL 对齐数据集生成方法、LLM形式定理证明器的训练方法，以及LLM Lean4证明编写技术。利用数据集生成方法，我们提供了*开放引导定理* (OBT)，一个 NL-FL 对齐和引导式数据集。该框架的一个关键创新是 NL-FL 引导方法，其中 NL 证明被整合到 Lean4 代码中以用于训练数据集，利用 LLMs 的 NL 推理能力进行形式推理。**TheoremLlama** 框架在 MiniF2F-Valid 和测试数据集上分别实现了 36.48% 和 33.61% 的累积准确率，超过了 GPT-4 基线的 22.95% 和 25.41%。我们还公开了我们的模型检查点和生成的数据集，并将很快公开所有代码。

使用学习的各向异性缩放的任务向量进行知识组合
Knowledge Composition using Task Vectors with Learned Anisotropic Scaling

Jul 3

ByFrederic Z. Zhang, Paul Albert, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad

预训练模型产生强大的通用表示，可以通过微调进行调整。相对于预训练模型的学习权重差异被称为任务向量，描述了微调的方向和步幅。任务向量的重要性在于，可以通过对其进行简单的算术运算来结合来自不同领域的多样表示。本文基于任务向量的这些特性，并旨在回答：(1) 任务向量的组成部分，特别是参数块，是否表现出类似特征，以及 (2) 如何利用这些块来增强知识组合和转移。为此，我们引入了aTLAS算法，该算法线性组合具有不同学习系数的参数块，从而在任务向量级别实现各向异性缩放。我们展示了这种线性组合明确利用了预训练模型的低固有维度，只有少量系数是可学习参数。此外，参数块的组合利用了已学习的表示，从而减少了对大量数据的依赖。我们在任务算术、少样本识别和测试时间适应等任务中展示了我们方法的有效性，这些任务可以是有监督或无监督目标。特别地，我们展示了：(1) 学习的各向异性缩放使任务向量更具分解性，减少了组合中的干扰；(2) 任务向量组合在稀缺或无标记数据时表现出色，并且不太容易受到领域转移的影响，从而提高了泛化能力；(3) 在训练之前混合不同任务向量中最具信息量的参数块可以减少内存占用，并提高知识转移的灵活性。此外，我们展示了aTLAS作为PEFT方法的潜力，特别是在数据较少时，并证明了其可扩展性。

回顾镜头：仅利用注意力图检测和减轻大型语言模型中的上下文幻觉
Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

Jul 9

ByYung-Sung Chuang, Linlu Qiu, Cheng-Yu Hsieh, Ranjay Krishna, Yoon Kim, James Glass

当被要求总结文章或回答问题时，大型语言模型（LLMs）可能会产生幻觉细节，并给出与输入上下文不符的未经证实的答案。本文描述了一种简单的方法来检测这种上下文幻觉。我们假设上下文幻觉与LLM关注所提供上下文信息与其自身生成之间的程度有关。基于这一直觉，我们提出了一个简单的幻觉检测模型，其输入特征由LLM在上下文和新生成标记（每个注意力头）上的注意权重比率给出。我们发现，基于这些回溯比率特征的线性分类器与利用整个LLM的隐藏状态或基于文本的蕴涵模型的更丰富的检测器一样有效。基于回溯比率的检测器——回溯镜头（Lookback Lens）被发现可以在任务和模型之间转移，使得一个在7B模型上训练的检测器可以应用（无需重新训练）到一个更大的13B模型上。我们进一步将该检测器应用于减少上下文幻觉，并发现一个简单的分类器引导解码方法能够减少幻觉的数量，例如在XSum摘要任务中减少了9.6%。

基于图的标题生成：通过相互连接区域描述来增强视觉描述
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Jul 9

ByYu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi

人类使用组合性描述复杂场景，使用简单文本描述并丰富其中的链接和关系。虽然视觉-语言研究旨在开发具有组合理解能力的模型，但现有数据集尚未反映这一点，因为大多数数据集仍然使用简单文本描述图像。在这项工作中，我们提出了一种新的注释策略，基于图的字幕（GBC），它使用带有各种类型节点的标记图结构来描述图像。GBC中的节点是通过首先使用目标检测和密集字幕工具进行嵌套递归创建的，以揭示和描述实体节点，然后在第二阶段通过突出使用新类型的节点来将这些实体链接在一起，以描述实体之间的组合和关系。由于所有GBC节点都包含简单文本描述，GBC保留了自然语言中的灵活性，但也可以在其边缘中编码分层信息。我们展示了GBC可以通过使用现成的多模态LLM和开放词汇检测模型自动产生，通过构建一个新数据集GBC10M，收集了CC12M数据集中约1000万张图像的GBC注释。我们使用GBC10M展示了GBC揭示的节点标题的丰富性，通过CLIP训练进行度量。我们展示了使用GBC节点的注释 - 特别是存储在组合和关系节点中的注释 - 相对于其他数据集格式，在下游模型上可以实现显著的性能提升。为了进一步探索GBC提供的机会，我们还提出了一种可以利用整个GBC图的新注意机制，并展示了鼓励人心的实验结果，显示了整合图结构的额外好处。我们的数据集已发布在https://huggingface.co/graph-based-captions。

VIMI：通过多模态指导实现视频生成
VIMI: Grounding Video Generation through Multi-modal Instruction

Jul 8

ByYuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov

现有的文本到视频扩散模型仅依赖于文本编码器进行预训练。这种局限性源自缺乏大规模多模态提示视频数据集，导致缺乏视觉基础并限制了它们在多模态集成中的灵活性和应用。为了解决这一问题，我们通过利用检索方法将上下文示例与给定的文本提示配对，构建了一个大规模多模态提示数据集，然后采用两阶段训练策略，使同一模型能够执行多样化的视频生成任务。在第一阶段，我们提出了一个多模态条件视频生成框架，用于在这些增强数据集上进行预训练，为基于基础模型的视频生成奠定基础。其次，我们在三个视频生成任务上对第一阶段的模型进行微调，融合多模态指令。这一过程进一步提升了模型处理多样化输入和任务的能力，确保多模态信息的无缝集成。经过这两阶段的训练过程后，VIMI展示了多模态理解能力，生成了基于提供的输入的上下文丰富且个性化的视频，如图1所示。与先前的视觉基础视频生成方法相比，VIMI能够合成具有大运动的一致且时间连贯的视频，同时保持语义控制。最后，VIMI还在UCF101基准测试上实现了最先进的文本到视频生成结果。

从循环到失误：语言模型在不确定性下的回退行为
From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

Jul 8

ByMaor Ivgi, Ori Yoran, Jonathan Berant, Mor Geva

大型语言模型（LLMs）经常表现出不良行为，例如幻觉和序列重复。我们建议将这些行为视为模型在不确定性下表现出的后备方案，并研究它们之间的联系。我们将后备行为分类为序列重复、退化文本和幻觉，并在来自同一系列但在预训练标记数量、参数数量或包含遵循指令训练方面有所不同的模型中对它们进行了广泛分析。我们的实验揭示了后备行为的明确且一致的排序，跨越所有这些维度：LLM越先进（即在更多标记上训练，具有更多参数或经过指令调整），其后备行为从序列重复转变为退化文本，然后是幻觉。此外，即使对于表现最佳的模型，在单个生成过程中也观察到相同的排序；随着不确定性的增加，模型从生成幻觉转变为产生退化文本，然后是序列重复。最后，我们证明了，尽管常见的解码技术（例如随机抽样）可能减轻一些不良行为，如序列重复，但它们会增加更难检测到的幻觉。

你是怎么知道的？教导生成式语言模型引用生物医学问题的答案
How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions

Jul 6

ByBojana Bašaragin, Adela Ljajić, Darija Medvecki, Lorenzo Cassano, Miloš Košprdić, Nikola Milošević

大型语言模型（LLMs）最近已成为用户在线提问的主要答案来源。尽管它们能够提供流畅的答案，但其准确性和可靠性可能构成重大挑战。这在生物医学等敏感领域尤为明显，因为这些领域对事实正确性的需求更高。本文介绍了一种生物医学检索增强生成（RAG）系统，旨在提高生成响应的可靠性。该系统基于一个经过微调的LLM用于参考问答，从PubMed检索到的相关摘要通过提示作为输入传递给LLM的上下文。其输出是基于PubMed摘要的答案，其中每个陈述都有相应的参考，使用户能够验证答案。我们的检索系统相较于PubMed搜索引擎实现了23%的绝对改进。基于对小样本的手动评估，我们的经过微调的LLM组件在引用相关摘要方面实现了与GPT-4 Turbo可比的结果。我们公开了用于微调模型的数据集以及基于Mistral-7B-instruct-v0.1和v0.2的经过微调模型。

基于语言嵌入的时间序列分类方法 LETS-C
LETS-C: Leveraging Language Embedding for Time Series Classification

Jul 9

ByRachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso

最近语言建模方面的进展显示，将其应用于时间序列数据取得了令人期待的结果。特别是，对预训练的大型语言模型（LLMs）进行微调，用于时间序列分类任务，在标准基准测试中取得了最先进的性能。然而，这些基于LLM的模型存在一个重大缺点，即模型规模庞大，可训练参数数量达到百万级。本文提出了一种利用语言建模成功经验的时间序列领域的替代方法。我们并非对LLMs进行微调，而是利用语言嵌入模型将时间序列嵌入，然后将这些嵌入与由卷积神经网络（CNN）和多层感知器（MLP）组成的简单分类头配对。我们在已建立的时间序列分类基准数据集上进行了大量实验。我们展示了LETS-C不仅在分类准确性上优于当前SOTA，而且提供了一种轻量级解决方案，与SOTA模型相比，平均仅使用了14.5%的可训练参数。我们的研究结果表明，利用语言编码器将时间序列数据嵌入，结合简单而有效的分类头，为实现高性能时间序列分类提供了一个有前途的方向，同时保持了轻量级模型架构。