AI研究论文每日精选

每日精选AI研究论文及翻译

VidEgoThink：评估具身体化人工智能的自我中心视频理解能力
VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

Oct 15

BySijie Cheng, Kechen Fang, Yangyang Yu, Sicheng Zhou, Bohao Li, Ye Tian, Tingguang Li, Lei Han, Yang Liu

最近多模态大型语言模型（MLLMs）的进展为具有体现式人工智能应用打开了新的途径。在之前的工作EgoThink的基础上，我们介绍了VidEgoThink，这是一个用于评估自我中心视频理解能力的全面基准。为了弥合MLLMs和体现式人工智能中低级控制之间的差距，我们设计了四个关键相互关联的任务：视频问答、层次规划、视觉定位和奖励建模。为了降低手动注释成本，我们基于Ego4D数据集开发了一个自动数据生成流水线，利用了GPT-4o的先前知识和多模态能力。然后，三名人类注释者过滤生成的数据，以确保多样性和质量，最终形成了VidEgoThink基准。我们使用三种类型的模型进行了大量实验：基于API的MLLMs、开源基于图像的MLLMs和开源基于视频的MLLMs。实验结果表明，包括GPT-4o在内的所有MLLMs在与自我中心视频理解相关的所有任务中表现不佳。这些发现表明，基础模型仍需要显著进步才能有效应用于体现式人工智能中的第一人称场景。总之，VidEgoThink反映了一种研究趋势，即利用MLLMs进行自我中心视觉，类似于人类能力，实现在复杂真实环境中的积极观察和互动。

HumanEval-V：通过编码任务评估大型多模态模型的视觉理解和推理能力
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks

Oct 16

ByFengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung

编码任务对于评估大型语言模型（LLMs）非常有价值，因为它们要求理解高级指令、复杂推理以及实现功能程序，这是推动人工通用智能发展的核心能力。尽管大型多模态模型（LMMs）取得了进展，将LLMs与视觉感知和理解能力相结合，但在严格评估这些模型的编码基准方面仍存在明显缺乏，特别是在强调视觉推理的任务中。为了填补这一空白，我们介绍了HumanEval-V，这是一个新颖且轻量级的基准，专门设计用于评估LMMs的视觉理解和推理能力，通过代码生成。HumanEval-V包括108个精心设计的入门级Python编码任务，这些任务源自CodeForces和Stack Overflow等平台。通过修改原始问题的上下文和算法模式，并重新绘制视觉元素以确保与源的区别，防止潜在数据泄漏，每个任务都经过了调整。LLMs需要根据提供的视觉上下文和预定义的Python函数签名来完成代码解决方案，概述任务要求。每个任务都配备了精心制作的测试用例，以确保对模型生成的解决方案进行彻底可靠的评估。我们使用HumanEval-V评估了19个最先进的LLMs，揭示了重大挑战。像GPT-4o这样的专有模型仅实现了13%的pass@1和36.4%的pass@10，而具有70B参数的开放权重模型在pass@1方面得分低于4%。消融研究进一步揭示了当前LLMs在视觉推理和编码能力方面的局限性。这些结果强调了未来研究增强LLMs能力的关键领域。我们已在https://github.com/HumanEval-V/HumanEval-V-Benchmark上开源了我们的代码和基准。

DocLayout-YOLO：通过多样化的合成数据和全局到局部的自适应感知增强文档布局分析
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

Oct 16

ByZhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He

文档布局分析对于现实世界的文档理解系统至关重要，但在速度和准确性之间存在一个具有挑战性的权衡：利用文本和视觉特征的多模态方法可以实现更高的准确性，但会遭受显著的延迟，而仅依赖视觉特征的单模态方法则在加快处理速度的同时牺牲了准确性。为了解决这一困境，我们引入了DocLayout-YOLO，这是一种新颖的方法，通过文档特定的优化在预训练和模型设计中提高准确性的同时保持速度优势。为了实现稳健的文档预训练，我们引入了Mesh-candidate BestFit算法，将文档合成框架化为二维装箱问题，生成了大规模、多样化的DocSynth-300K数据集。在生成的DocSynth-300K数据集上进行预训练显著提高了各种文档类型的微调性能。在模型优化方面，我们提出了一个全局到局部可控的感受模块，能够更好地处理文档元素的多尺度变化。此外，为了验证在不同文档类型上的性能，我们引入了一个复杂且具有挑战性的基准测试集，名为DocStructBench。在下游数据集上进行的大量实验表明，DocLayout-YOLO在速度和准确性方面表现出色。代码、数据和模型可在https://github.com/opendatalab/DocLayout-YOLO 上获取。

多模态的诅咒：评估大型多模态模型在语言、视觉和音频方面的幻觉
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

Oct 16

BySicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing

最近大型多模态模型（LMMs）的进展显著提高了在各种任务中的性能，正在努力进一步整合额外的模态，如视频和音频。然而，大多数现有的LMMs仍然容易出现幻觉，即事实多模态输入与生成的文本输出之间的差异，这限制了它们在各种实际场景中的适用性。本文首次系统调查了涉及三种最常见模态（语言、视觉和音频）的LMMs中的幻觉。我们的研究揭示了两个导致幻觉的关键因素：对单模态先验的过度依赖和虚假的跨模态相关性。为了解决这些挑战，我们引入了基准测试“多模态的诅咒”（CMM），全面评估LMMs中的幻觉，详细分析了其潜在问题。我们的发现突出了关键的脆弱性，包括模态整合不平衡和训练数据中的偏见，强调了需要平衡的跨模态学习和增强的幻觉缓解策略。基于我们的观察和发现，我们提出了可能增强LMMs可靠性的研究方向。

揭示语言代理在规划中的障碍
Revealing the Barriers of Language Agents in Planning

Oct 16

ByJian Xie, Kexun Zhang, Jiangjie Chen, Siyu Yuan, Kai Zhang, Yikai Zhang, Lei Li, Yanghua Xiao

自主规划是自从人工智能诞生以来一直在追求的目标。早期的规划代理基于精心策划的问题解决者，能够为特定任务提供精确的解决方案，但缺乏泛化能力。大型语言模型（LLMs）的出现及其强大的推理能力重新激发了对自主规划的兴趣，因为它们能够自动生成针对给定任务的合理解决方案。然而，先前的研究和我们的实验证明，当前的语言代理仍然缺乏人类级别的规划能力。即使是最先进的推理模型OpenAI o1，在复杂的现实世界规划基准测试中也仅达到15.6%。这凸显了一个关键问题：是什么阻碍了语言代理实现人类级别的规划能力？尽管现有研究已经强调了代理规划的性能不佳，但对于更深层次的根本问题、以及为解决这些问题提出的策略的机制和局限性仍然了解不足。在这项研究中，我们应用特征归因研究，确定了阻碍代理规划的两个关键因素：约束的作用受限以及问题影响力的减弱。我们还发现，尽管当前的策略有助于缓解这些挑战，但并未完全解决，这表明代理在达到人类级别智能之前还有很长的路要走。

探索模型亲缘性以合并大型语言模型
Exploring Model Kinship for Merging Large Language Models

Oct 16

ByYedi Hu, Yunzhi Yao, Ningyu Zhang, Shumin Deng, Huajun Chen

模型合并已成为增强大型语言模型（LLMs）能力和效率的关键技术之一。然而，我们对于合并任意两个模型时预期性能提升和原则的理解仍然有限。在这项工作中，我们引入了模型亲缘性的概念，即LLMs之间的相似度或相关性程度，类似于生物进化。通过全面的实证分析，我们发现模型亲缘性与模型合并后性能提升之间存在一定关系，这有助于指导我们选择候选模型。受此启发，我们提出了一种新的模型合并策略：基于模型亲缘性的Top-k贪婪合并，可以在基准数据集上实现更好的性能。具体而言，我们发现将模型亲缘性作为一个标准可以帮助我们持续进行模型合并，缓解模型演化中的退化（局部最优解），而模型亲缘性可以作为一个指导来避开这些陷阱。代码可在 https://github.com/zjunlp/ModelKinship 获取。

通过矩阵核范数对大型语言模型进行评估。
Large Language Model Evaluation via Matrix Nuclear-Norm

Oct 14

ByYahan Li, Tingyu Xia, Yi Chang, Yuan Wu

随着大型语言模型（LLMs）的不断发展，高效的评估指标对于评估它们压缩信息和减少冗余的能力至关重要。虽然传统的度量标准如矩阵熵提供了有价值的见解，但由于其具有奇异值分解（SVD）的 \( O(n^3) \) 时间复杂度，对于大规模模型而言计算密集。为了缓解这一问题，我们引入了矩阵核范数，它不仅作为衡量LLM数据压缩能力的度量标准，还提供了矩阵秩的凸逼近，以捕捉预测可辨识性和多样性。通过进一步逼近核范数的 \( L_{1,2}-norm \)，我们可以有效评估模型的信息压缩能力。这种方法将时间复杂度降低到 \( O(n^2) \)，并消除了对SVD计算的需求。因此，相较于矩阵熵，矩阵核范数在CEREBRAS-GPT模型的111M至6.7B尺寸增加时，实现了8至24倍的速度提升。随着模型规模的增大，这种性能差距变得更加显著，这在与其他模型如Pythia的测试中得到验证。此外，基准测试和模型响应的评估证实了我们提出的矩阵核范数是一种可靠、可扩展且高效的工具，用于评估LLMs的性能，实现了准确性和计算效率之间的平衡。代码可在 https://github.com/MLGroupJLU/MatrixNuclearNorm 获取。

连续时间一致性模型的简化、稳定化和扩展
Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models

Oct 14

ByCheng Lu, Yang Song

一致性模型（CMs）是一类基于扩散的生成模型，经过优化以实现快速抽样。大多数现有的一致性模型是使用离散化时间步进行训练的，这会引入额外的超参数并容易出现离散化误差。虽然连续时间制定可以缓解这些问题，但由于训练不稳定，其成功受到限制。为了解决这个问题，我们提出了一个简化的理论框架，统一了以前扩散模型和一致性模型的参数化，识别了不稳定性的根本原因。基于这一分析，我们在扩散过程参数化、网络架构和训练目标方面引入了关键改进。这些改变使我们能够在前所未有的规模上训练连续时间一致性模型，在ImageNet 512x512上达到了15亿参数。我们提出的训练算法仅使用两个抽样步骤，在CIFAR-10上实现了2.06的FID分数，在ImageNet 64x64上实现了1.48，在ImageNet 512x512上实现了1.88，将FID分数与最佳现有扩散模型的差距缩小到不到10%。

提升文本到图像扩散模型的长文本对齐
Improving Long-Text Alignment for Text-to-Image Diffusion Models

Oct 15

ByLuping Liu, Chao Du, Tianyu Pang, Zehan Wang, Chongxuan Li, Dong Xu

文本到图像（T2I）扩散模型的快速发展使其能够从给定文本中生成前所未有的结果。然而，随着文本输入变得更长，现有的编码方法如CLIP面临限制，将生成的图像与长文本对齐变得具有挑战性。为了解决这些问题，我们提出了LongAlign，其中包括用于处理长文本的分段级编码方法和用于有效对齐训练的分解偏好优化方法。对于分段级编码，长文本被分成多个段落并分别处理。这种方法克服了预训练编码模型的最大输入长度限制。对于偏好优化，我们提供了基于CLIP的分解偏好模型来微调扩散模型。具体而言，为了利用基于CLIP的偏好模型进行T2I对齐，我们深入研究了它们的评分机制，并发现偏好分数可以分解为两个部分：一个衡量T2I对齐的文本相关部分和一个评估人类偏好的其他视觉方面的文本无关部分。此外，我们发现文本无关部分在微调过程中导致了常见的过拟合问题。为了解决这个问题，我们提出了一种重新加权策略，为这两个部分分配不同的权重，从而减少过拟合并增强对齐效果。使用我们的方法对512次512稳定扩散（SD）v1.5进行约20小时的微调后，微调后的SD在T2I对齐方面胜过了更强的基础模型，如PixArt-alpha和Kandinsky v2.2。代码可在https://github.com/luping-liu/LongAlign找到。

DyVo：用于实体学习稀疏检索的动态词汇
DyVo: Dynamic Vocabularies for Learned Sparse Retrieval with Entities

Oct 10

ByThong Nguyen, Shubham Chatterjee, Sean MacAvaney, Iain Mackie, Jeff Dalton, Andrew Yates

学习稀疏检索（LSR）模型使用来自预训练变换器的词汇，这些词汇通常将实体分割为毫无意义的片段。分割实体可能会降低检索准确性，并限制模型吸收未包含在训练数据中的最新世界知识的能力。在这项工作中，我们通过维基百科的概念和实体增强了LSR词汇，使模型能够更有效地解决歧义并与不断更新的知识保持同步。我们方法的核心是动态词汇（DyVo）头部，它利用现有的实体嵌入和一个实体检索组件，识别与查询或文档相关的实体。我们使用DyVo头部生成实体权重，然后将其与单词片段权重合并，以创建联合表示，用于使用倒排索引进行高效索引和检索。在三个实体丰富的文档排名数据集上的实验中，得到的DyVo模型明显优于最先进的基线模型。

可控安全对齐：推理时适应多样化安全要求
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

Oct 11

ByJingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme

目前用于大型语言模型（LLMs）安全对齐的范式遵循一种一刀切的方法：模型拒绝与被模型提供者视为不安全的内容进行交互。这种方法在面对不同文化和地区的社会规范时缺乏灵活性。此外，用户可能具有不同的安全需求，使得具有静态安全标准的模型过于限制以至于无法使用，也过于昂贵以至于无法重新对齐。我们提出可控安全对齐（CoSA），这是一个旨在使模型适应不同安全要求而无需重新训练的框架。我们不是对齐一个固定模型，而是对齐模型以遵循安全配置 - 这些安全配置是所提供的系统提示的自由形式自然语言描述所需的安全行为。为了调整模型的安全行为，授权用户只需在推断时修改这些安全配置。为此，我们提出了CoSAlign，这是一种数据中心的方法，用于对齐LLMs以便轻松适应不同的安全配置。此外，我们设计了一种新颖的可控性评估协议，考虑了帮助性和配置的安全性，将它们总结为CoSA-Score，并构建了CoSApien，一个由人类编写的基准，其中包含具有不同安全要求和相应评估提示的真实世界LLM使用案例。我们展示了CoSAlign相对于包括上下文对齐在内的强基线的可控性显著提高。我们的框架鼓励更好地代表和适应LLMs中的多元人类价值观，从而提高它们的实用性。

ProSA：评估和理解LLM的提示敏感性
ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs

Oct 16

ByJingming Zhuo, Songyang Zhang, Xinyu Fang, Haodong Duan, Dahua Lin, Kai Chen

大型语言模型（LLMs）在各种任务中展示出令人印象深刻的能力，但它们的性能对使用的提示非常敏感。这种变化性给准确评估和用户满意度带来挑战。当前研究经常忽视实例级别的提示变化及其对主观评估的影响。为了解决这些缺点，我们引入了ProSA，这是一个旨在评估和理解LLMs中提示敏感性的框架。ProSA结合了一种新颖的敏感度度量标准PromptSensiScore，并利用解码置信度来阐明潜在机制。我们的广泛研究跨越多个任务，揭示了提示敏感性在数据集和模型之间波动，较大模型表现出增强的稳健性。我们观察到少样本示例可以缓解这种敏感性问题，主观评估也容易受到提示敏感性的影响，特别是在复杂的、以推理为导向的任务中。此外，我们的发现表明，更高的模型置信度与增强的提示稳健性相关。我们相信这项工作将成为研究LLMs提示敏感性的有用工具。该项目已发布在：https://github.com/open-compass/ProSA。

ZipVL：具有动态令牌稀疏化和KV缓存压缩的高效大规模视觉语言模型
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

Oct 11

ByYefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

大型视觉语言模型（LVLMs）的效率受到计算瓶颈的限制，在预填充阶段的注意力机制和解码阶段中提取关键-值（KV）缓存的内存瓶颈，尤其在涉及高分辨率图像或视频的情况下。视觉内容通常表现出相当多的冗余，导致LVLMs内高度稀疏的注意力图。这种稀疏性可以通过各种方法加速注意力计算或压缩KV缓存。然而，大多数研究集中解决这两个瓶颈中的一个，并未充分支持关于不同层或任务的稀疏性动态调整。在本文中，我们提出了ZipVL，一种为LVLMs设计的高效推理框架，通过重要令牌的动态比例分配策略解决计算和内存瓶颈。这个比例是根据层特定的注意力分数分布自适应确定的，而不是固定的超参数，从而提高了对较简单任务的效率，同时保持了对更具挑战性任务的高性能。然后，我们基于它们的标准化注意力分数选择重要令牌，并仅对这些重要令牌执行注意力机制以加速预填充阶段。为了减轻解码阶段的内存瓶颈，我们对KV缓存采用混合精度量化，其中对于重要令牌的缓存使用高位量化，而对于不太重要的则应用低位量化。我们的实验表明，ZipVL可以将预填充阶段加速2.6倍，并将GPU内存使用减少50.0%，在LongVA-7B模型的Video-MME基准上仅减少0.2%的准确率，有效提高了LVLMs的生成效率。

ChroKnowledge：揭示语言模型在多个领域中的时间知识
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains

Oct 13

ByYein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang

大型语言模型（LLMs）已经显著影响了我们生活的许多方面。然而，评估和确保它们的时间顺序知识仍然具有挑战性。现有方法在处理知识的累积性质时存在不足，通常依赖于单个时间戳。为了克服这一问题，我们引入了ChroKnowBench，这是一个旨在评估跨三个关键方面的时间累积知识的基准数据集：多个领域、时间依赖性、时间状态。我们的基准数据集区分了不断发展的知识（例如科学发现、修订法律）和保持不变的知识（例如数学真理、常识事实）。基于这一基准数据集，我们提出了ChroKnowledge（知识的时间分类），这是一个用于评估和更新LLMs非参数化时间知识的新型基于抽样的框架。我们的评估显示：（1）引出时间知识的能力取决于模型训练的数据格式。（2）LLMs部分地回忆知识，或者在时间边界处出现截断，而不是完全正确地回忆所有知识方面。因此，我们应用我们的ChroKnowPrompt，通过逐步遍历周围的时间跨度来引出时间知识的深入提示。我们观察到，我们的框架成功地更新了整个时间轴上的总体知识，无论是在生物医学领域（+11.9%）还是在一般领域（+2.8%），展示了其在完善时间知识方面的有效性。这种非参数化方法还使得知识更新不仅适用于开源模型，还适用于专有LLMs，确保了在各种模型类型中的全面适用性。我们基于ChroKnowPrompt的时间特征进行了全面分析，并验证了各种模型通过我们的方法引出内在时间知识的潜力。

神经变形
Neural Metamorphosis

Oct 10

ByXingyi Yang, Xinchao Wang

本文介绍了一种名为神经变形（NeuMeta）的新学习范式，旨在构建自变形神经网络。与为不同架构或大小创建单独模型不同，NeuMeta直接学习神经网络的连续权重流形。一旦训练完成，我们可以直接从流形中对任何大小的网络进行权重采样，甚至对以前未见过的配置，无需重新训练。为实现这一宏伟目标，NeuMeta训练神经隐式函数作为超网络。它们接受模型空间内的坐标作为输入，并在流形上生成相应的权重值。换句话说，隐式函数是以一种方式学习的，使得预测的权重在各种模型大小上表现良好。在训练这些模型时，我们注意到最终性能与学习流形的平滑度密切相关。为了增强这种平滑度，我们采用了两种策略。首先，我们对权重矩阵进行排列以实现模型内平滑度，通过解决最短哈密顿路径问题。此外，在训练隐式函数时，我们在输入坐标上添加噪声，确保各种大小的模型显示一致的输出。因此，NeuMeta在合成各种网络配置的参数方面表现出有希望的结果。我们在图像分类、语义分割和图像生成方面进行了广泛测试，结果显示NeuMeta即使在75%的压缩率下仍能保持全尺寸性能。

稳定图像自回归建模的潜空间：一个统一的视角
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective

Oct 16

ByYongxin Zhu, Bocheng Li, Hang Zhang, Xin Li, Linli Xu, Lidong Bing

基于潜在空间的图像生成模型，如潜在扩散模型（LDMs）和掩膜图像模型（MIMs），在图像生成任务中取得了显著成功。这些模型通常利用像VQGAN或VAE这样的重构自动编码器，将像素编码为更紧凑的潜在空间，并学习潜在空间中的数据分布，而不是直接从像素中学习。然而，这种做法引发了一个重要问题：这真的是最佳选择吗？作为回应，我们从一个有趣的观察开始：尽管共享相同的潜在空间，自回归模型在图像生成方面明显落后于LDMs和MIMs。这一发现与自然语言处理领域形成鲜明对比，那里自回归模型GPT已经建立了强大的地位。为了解决这一差异，我们提出了一个关于潜在空间和生成模型关系的统一视角，强调图像生成建模中潜在空间的稳定性。此外，我们提出了一个简单但有效的离散图像标记器，以稳定图像生成建模中的潜在空间。实验结果表明，使用我们的标记器（DiGIT）进行图像自回归建模既有利于图像理解又有利于图像生成，采用下一个标记预测原则，这对于GPT模型来说本质上是直接的，但对其他生成模型来说是具有挑战性的。值得注意的是，首次出现了一种针对图像的GPT风格自回归模型优于LDMs的情况，当模型规模扩大时，也类似于GPT表现出显著改进。我们的发现强调了优化潜在空间和整合离散标记化对推进图像生成模型能力的潜力。代码可在https://github.com/DAMO-NLP-SG/DiGIT找到。

通过微调和模型合并跟踪通用特征
Tracking Universal Features Through Fine-Tuning and Model Merging

Oct 16

ByNiels Horn, Desmond Elliott

我们研究了特征如何在针对不同文本领域微调的模型中出现、消失和持续。更具体地说，我们从一个基础的单层Transformer语言模型开始，该模型经过BabyLM语料库和The Stack中的Python代码的组合训练。然后，将此基础模型调整为两个新的文本领域：TinyStories 和 Lua 编程语言；然后使用球面线性插值合并这两个模型。我们的探索旨在深入了解特征在典型的迁移学习场景中的稳定性和转化，使用小规模模型和稀疏自编码器。

WorldMedQA-V：一个多语言、多模态的医学检查数据集，用于多模态语言模型评估。
WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation

Oct 16

ByJoão Matos, Shan Chen, Siena Placino, Yingya Li, Juan Carlos Climent Pardo, Daphna Idan, Takeshi Tohyama, David Restrepo, Luis F. Nakayama, Jose M. M. Pascual-Leone, Guergana Savova, Hugo Aerts, Leo A. Celi, A. Ian Wong, Danielle S. Bitterman, Jack Gallifant

多模态/视觉语言模型（VLMs）越来越多地在全球医疗环境中部署，这需要健壮的基准来确保其安全性、有效性和公平性。源自国家医学考试的多项选择问答（QA）数据集长期以来一直作为有价值的评估工具，但现有数据集主要仅限于文本，并且仅支持有限的语言和国家。为了解决这些挑战，我们提出了WorldMedQA-V，这是一个更新的多语言、多模态基准数据集，旨在评估医疗领域的VLMs。WorldMedQA-V包括568个带有568张医学图像的标记多项选择QA，这些图像来自巴西、以色列、日本和西班牙四个国家，分别涵盖了原始语言和由本地临床医生验证的英文翻译。提供了常见开源和闭源模型的基准性能，分别以当地语言和英文翻译呈现，以及模型是否提供图像。WorldMedQA-V基准旨在更好地将AI系统与其部署的多样化医疗环境相匹配，促进更公平、有效和具有代表性的应用。

FLARE：忠实逻辑辅助推理与探索
FLARE: Faithful Logic-Aided Reasoning and Exploration

Oct 14

ByErik Arakelyan, Pasquale Minervini, Pat Verga, Patrick Lewis, Isabelle Augenstein

基于大型语言模型（LLMs）的现代问答（QA）和推理方法通常使用提示技术，如Chain-of-Thought（CoT），假设生成的结果将更细致地探索问题空间和范围。然而，这种方法在生成符合模型产生的中间推理链的输出时存在困难。在另一端，神经符号方法如Faithful CoT（F-CoT）提出将LLMs与外部符号求解器结合。虽然这些方法具有较高的忠实度，但通常需要经过代码生成训练的模型，并且在处理模糊或难以严格形式化的任务时存在困难。我们引入Faithful Logic-Aided Reasoning and Exploration（\ours），这是一种新颖的可解释方法，用于通过任务分解遍历问题空间。我们使用LLM规划解决方案，通过逻辑编程代码将查询软形式化为事实和谓词，并使用定义空间的详尽多跳搜索模拟该代码执行。我们的方法允许我们计算推理过程相对于生成的代码的忠实度，并分析多跳搜索的步骤，而无需依赖外部求解器。我们的方法在9个不同推理基准中有7个取得了最先进的结果。我们还展示模型的忠实度与整体性能呈正相关，并进一步证明{\ours}能够准确定位决定性因素，足以引导正确答案的最佳推理过程。

全上下文感知变换器：OMCAT
OMCAT: Omni Context Aware Transformer

Oct 15

ByArushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro

大型语言模型（LLMs）在文本生成和理解方面取得了重大进展，最近的发展已延伸到整合视觉和音频输入的多模态LLMs。然而，这些模型在细粒度、跨模态时间理解方面仍然存在困难，特别是在相关联音频和视频流中的事件时。我们通过两个关键贡献来解决这些挑战：一个新数据集和模型，分别称为OCTAV和OMCAT。OCTAV（Omni Context and Temporal Audio Video）是一个新颖的数据集，旨在捕捉音频和视频之间的事件转换。其次，OMCAT（Omni Context Aware Transformer）是一个强大的模型，利用RoTE（Rotary Time Embeddings），这是RoPE的创新扩展，以增强时间基准任务中的时间基础和计算效率。通过一个稳健的三阶段训练流程——特征对齐、指导微调和OCTAV特定训练——OMCAT在跨模态时间理解方面表现出色。我们的模型在音频-视觉问答（AVQA）任务和OCTAV基准上展现了最先进的性能，通过全面实验和消融研究验证了在时间推理和跨模态对齐方面的显著收益。我们的数据集和代码将公开发布。我们的演示页面链接为https://om-cat.github.io。

反向推理的见解：通过逆强化学习重建LLM训练目标
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL

Oct 16

ByJared Joselowitz, Arjun Jagota, Satyapriya Krishna, Sonali Parbhoo

使用强化学习从人类反馈中训练的大型语言模型（LLMs）展示了卓越的能力，但它们的基本奖励函数和决策过程仍然不透明。本文通过应用逆强化学习（IRL）来解释LLMs的新方法。我们对不同规模的与毒性对齐的LLMs进行实验，提取能够达到高达80.40%准确率的预测人类偏好的奖励模型。我们的分析揭示了奖励函数的非可识别性、模型规模与可解释性之间的关系，以及强化学习人类反馈过程中潜在的陷阱。我们证明了通过IRL推导的奖励模型可以用于微调新的LLMs，在毒性基准测试中实现可比或改进的性能。这项工作为理解和改进LLM对齐提供了新视角，对这些强大系统的负责任开发和部署具有重要意义。

从命令到提示：基于LLM的AIOS语义文件系统
From Commands to Prompts: LLM-based Semantic File System for AIOS

Sep 23

ByZeru Shi, Kai Mei, Mingyu Jin, Yongye Su, Chaoji Zuo, Wenyue Hua, Wujiang Xu, Yujie Ren, Zirui Liu, Mengnan Du, Dong Deng, Yongfeng Zhang

大型语言模型（LLMs）已经展示了在智能应用程序和系统的发展中具有重要潜力，例如基于LLM的代理和代理操作系统（AIOS）。然而，当这些应用程序和系统与底层文件系统交互时，文件系统仍然保持传统范式：依赖于通过精确命令手动导航。这种范式对这些系统的可用性构成瓶颈，因为用户需要浏览复杂的文件层次结构并记住晦涩的文件名。为了解决这一局限性，我们提出了基于LLM的语义文件系统（LSFS）用于基于提示的文件管理。与传统方法不同，LSFS整合了LLMs，使用户或代理能够通过自然语言提示与文件交互，促进语义文件管理。在宏观层面上，我们开发了一套全面的API集合，以实现语义文件管理功能，例如语义文件检索、文件更新监控和总结，以及语义文件回滚。在微观层面上，我们通过为文件构建语义索引来存储文件，设计和实现了不同语义操作的系统调用（例如CRUD、分组、连接），并由向量数据库提供支持。我们的实验表明，LSFS在用户便利性、支持功能的多样性以及文件操作的准确性和效率方面明显优于传统文件系统。此外，通过LLM的集成，我们的系统实现了更智能的文件管理任务，例如内容总结和版本比较，进一步增强了其功能。

在RLHF中驯服LLMs中的过度自信：奖励校准
Taming Overconfidence in LLMs: Reward Calibration in RLHF

Oct 13

ByJixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang

语言模型校准指的是模型的信心与其响应实际表现之间的对齐。先前的研究指出大型语言模型（LLMs）存在过度自信现象，并表明使用从人类反馈中训练的强化学习（RLHF）的LLMs会表现出更加尖锐的输出概率，但在本研究中，我们发现RLHF倾向于导致模型在其自身响应中表达口头上的过度自信。我们调查了这种过度自信的潜在原因，并证明了用于Proximal Policy Optimization（PPO）的奖励模型存在固有偏向于高置信度分数的偏见，而不考虑实际响应质量。基于这一洞见，我们提出了两种PPO变体：PPO-M：带有校准奖励建模的PPO和PPO-C：带有校准奖励计算的PPO。PPO-M在奖励模型训练中集成了显式置信度分数，从而校准奖励模型以更好地捕捉响应质量与口头置信度之间的对齐。PPO-C根据当前奖励与过去奖励移动平均值之间的差异，在PPO期间调整奖励分数。PPO-M和PPO-C都可以无缝集成到当前的PPO流程中，不需要额外的黄金标签。我们在Llama3-8B和Mistral-7B上评估了我们的方法，涵盖了六个不同数据集，包括多项选择和开放式生成。实验结果表明，我们的两种方法都可以减少校准误差，并保持与标准PPO相当的性能。我们进一步展示它们不会损害模型在开放式对话环境中的能力。

AI研究论文每日精选

每日精选AI研究论文及翻译

VidEgoThink：评估具身体化人工智能的自我中心视频理解能力
VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

Oct 15

BySijie Cheng, Kechen Fang, Yangyang Yu, Sicheng Zhou, Bohao Li, Ye Tian, Tingguang Li, Lei Han, Yang Liu

HumanEval-V：通过编码任务评估大型多模态模型的视觉理解和推理能力
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks

Oct 16

ByFengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung

DocLayout-YOLO：通过多样化的合成数据和全局到局部的自适应感知增强文档布局分析
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

Oct 16

ByZhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He

多模态的诅咒：评估大型多模态模型在语言、视觉和音频方面的幻觉
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

Oct 16

BySicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing

ZipVL：具有动态令牌稀疏化和KV缓存压缩的高效大规模视觉语言模型
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

Oct 11

ByYefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

WorldMedQA-V：一个多语言、多模态的医学检查数据集，用于多模态语言模型评估。
WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation

Oct 16