HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

8 papers found

多模态大型语言模型的长文本能力基准测试
Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

Jun 17

ByHengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang

多模态大型语言模型（MLLMs）在各种应用中展现出显著的潜力，引起了研究人员和从业者的广泛兴趣。然而，对它们长上下文能力的全面评估仍未得到充分探讨。为了填补这些空白，我们引入了MultiModal Needle-in-a-haystack（MMNeedle）基准，专门设计用于评估MLLMs的长上下文能力。除了多图像输入外，我们采用图像拼接来进一步增加输入上下文长度，并制定了一个协议，用于自动生成子图像级别的检索标签。基本上，MMNeedle通过对MLLMs进行压力测试，评估它们在基于文本指令和图像内容描述的情况下，定位一组图像（干草垛）中的目标子图像（针）的能力。这种设置要求对广泛的视觉上下文有高级理解，并能够在长上下文图像输入中进行有效信息检索。通过这一基准，我们评估了最先进的MLLMs，包括基于API和开源模型。研究结果显示，GPT-4o在长上下文场景中持续超越其他模型，但在负样本中存在幻觉问题，即当针不在干草垛中时。我们对MLLMs的全面长上下文评估还揭示了基于API和开源模型之间的显著性能差距。重现主要结果所需的所有代码、数据和说明均可在https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack 上找到。

长代码竞技场：一组用于长上下文代码模型的基准测试
Long Code Arena: a Set of Benchmarks for Long-Context Code Models

Jun 17

ByEgor Bogomolov, Aleksandra Eliseeva, Timur Galimzyanov, Evgeniy Glukhov, Anton Shapkin, Maria Tigina, Yaroslav Golubev, Alexander Kovrigin, Arie van Deursen, Maliheh Izadi, Timofey Bryksin

如今，编码和自然语言处理领域正在迅速发展。特别是，模型在处理长上下文窗口方面变得更加优秀 - 支持的上下文大小在过去几年内增加了数量级。然而，目前缺乏超越单个文件上下文的编码处理基准，而最流行的基准仅限于单个方法。通过这项工作，我们旨在填补这一空白，推出了长代码竞技场(Long Code Arena)，这是一个包含六项基准的编码处理任务套件，需要整个项目范围的上下文。这些任务涵盖了编码处理的不同方面：基于库的代码生成、CI构建修复、项目级代码完成、提交消息生成、错误定位和模块摘要。对于每个任务，我们提供了经过手工验证的测试数据集、评估套件，并基于流行的LLM提供开源基线解决方案，以展示数据集的使用方式，并简化其他研究人员的采用。我们在HuggingFace Spaces上发布了基准页面，包括排行榜、所有数据集的HuggingFace Hub链接，以及带有基线的GitHub存储库链接：https://huggingface.co/spaces/JetBrains-Research/long-code-arena。

自我MoE：朝向具有自我专业化专家的组合大型语言模型
Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts

Jun 17

ByJunmo Kang, Leonid Karlinsky, Hongyin Luo, Zhen Wang, Jacob Hansen, James Glass, David Cox, Rameswar Panda, Rogerio Feris, Alan Ritter

我们提出了Self-MoE，这是一种将单片LMM转变为自专家化模块化系统的方法，称为MiXSE（自专家化专家混合）。我们的方法利用自专家化，使用自动生成的合成数据构建专家模块，每个模块都配备有共享的基础LMM，并且包含自优化路由。这使得能够动态地、针对不同目标任务进行能力特定处理，增强整体能力，而无需大量人工标记的数据和额外的参数。我们的实证结果显示，专门化LMM可能在非专门化任务的性能上存在潜在的权衡。另一方面，我们的Self-MoE在各种基准测试中均显著优于基础LMM，如知识、推理、数学和编码。它还在设计上通过语义专家和路由提供了更好的灵活性和可解释性，始终优于其他方法，包括实例合并和权重合并。我们的发现突显了模块化的关键作用以及自我改进在实现高效、可扩展和适应性系统方面的潜力。

概率性概念解释器：视觉基础模型的可信概念解释
Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models

Jun 18

ByHengyi Wang, Shiwei Tan, Hao Wang

视觉Transformer（ViTs）已成为一个重要的研究领域，特别是因为它们能够与大型语言模型联合训练，并作为强大的视觉基础模型。然而，针对ViTs的可信解释方法的发展滞后，特别是在后续解释ViT预测的背景下。现有的子图像选择方法，如特征归因和概念模型，在这方面表现不佳。本文提出了解释ViTs的五个愿望 -- 忠实性、稳定性、稀疏性、多级结构和简洁性 -- 并展示了当前方法在全面满足这些标准方面的不足。我们引入了一种变分贝叶斯解释框架，称为ProbAbilistic Concept Explainers（PACE），该框架对补丁嵌入的分布进行建模，以提供可信赖的后续概念解释。我们的定性分析揭示了补丁级别概念的分布，通过对补丁嵌入和ViT预测的联合分布进行建模，阐明了ViTs的有效性。此外，这些补丁级别的解释弥合了图像级别和数据集级别解释之间的差距，从而完成了PACE的多级结构。通过在合成和真实数据集上进行大量实验，我们证明了PACE在所定义的愿望方面超越了现有技术方法。

突破界限：探讨模型编辑对跨语言性能的影响
Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance

Jun 17

BySomnath Banerjee, Avik Halder, Rajarshi Mandal, Sayan Layek, Ian Soboroff, Rima Hazra, Animesh Mukherjee

预训练语言模型（PLMs）如BERT和GPT的整合已经彻底改变了自然语言处理（NLP），尤其是对于英语，但也带来了语言上的不平衡。本文通过在多语境中检验几种知识编辑技术，战略性地确定了对语言平等的需求。我们评估了Mistral、TowerInstruct、OpenHathi、Tamil-Llama和Kan-Llama等模型在包括英语、德语、法语、意大利语、西班牙语、印地语、泰米尔语和卡纳达语在内的多种语言上的性能。我们的研究发现了关于跨语言一致性的正常模型和合并模型之间的显著差异。我们采用“每种语言为自己”（ELFI）和“每种语言为他人”（ELFO）等策略来对这些模型进行压力测试。我们的发现展示了LLMs克服语言障碍的潜力，为实现AI技术中的语言包容性奠定了基础。

自监督语音模型的界面设计
Interface Design for Self-Supervised Speech Models

Jun 18

ByYi-Jen Shih, David Harwath

最近，自监督语音（SSL）模型已被广泛应用于许多下游语音处理任务。一般的使用模式是将SSL模型用作特征提取器，然后训练一个下游预测头来解决特定任务。然而，已经证明SSL模型的不同层捕获了不同类型的信息，而它们的组合方法尚未得到充分研究。为此，我们通过提出连接上游和下游的接口来扩展SSL模型利用的一般框架。在这个视角下，通过逐层加权求和结合特征的主要技术可以被视为一种特定接口。我们提出了几种替代接口设计，并证明加权求和接口对许多任务来说并不是最佳选择。特别地，我们展示了一个卷积接口，其深度随着上游模型的深度对数级地扩展，始终优于许多其他接口设计。

在强化学习编码补全中衡量记忆化
Measuring memorization in RLHF for code completion

Jun 17

ByAneesh Pappu, Billy Porter, Ilia Shumailov, Jamie Hayes

人类反馈强化学习（RLHF）已成为将大型模型与用户偏好对齐的主要方法。与微调不同，微调存在许多关于训练数据记忆的研究，但在RLHF对齐过程中记忆是如何受影响或引入的尚不清楚。了解这种关系很重要，因为可能会收集和使用真实用户数据来对齐大型模型；如果用户数据在RLHF过程中被记忆并在后来被复述，这可能引发隐私问题。在这项工作中，我们分析了训练数据记忆如何在RLHF的每个阶段中浮现并传播。我们的研究重点放在代码补全模型上，因为代码补全是大型语言模型最受欢迎的用例之一。我们发现，与直接在这些数据上微调对齐相比，RLHF显著降低了用于奖励建模和强化学习的数据被记忆的机会，但在RLHF的微调阶段已经记忆的示例，在大多数情况下，将在RLHF后继续被记忆。

使用参数化知识痕迹对遗忘进行内在评估
Intrinsic Evaluation of Unlearning Using Parametric Knowledge Traces

Jun 17

ByYihuai Hong, Lei Yu, Shauli Ravfogel, Haiqin Yang, Mor Geva

最近，“遗忘”大型语言模型（LLMs）中某些概念的任务引起了广泛关注，因为这对于减轻模型行为中的不良行为（如生成有害、私密或不正确信息）至关重要。目前评估遗忘方法的常规协议主要依赖行为测试，而不监测模型参数中遗忘知识的存在。这种残留知识可能被对抗性地利用，以在遗忘后恢复已删除的信息。我们认为，遗忘还应该通过考虑未学习概念的参数化知识痕迹的变化来进行内部评估。为此，我们提出了一种通用方法，用于引发参数空间中的方向（称为“概念向量”），这些向量编码具体概念，并构建了ConceptVectors，一个包含两个开源LLMs中数百个常见概念及其参数化知识痕迹的基准数据集。在ConceptVectors上的评估显示，现有的遗忘方法对概念向量的影响很小，而直接消除这些向量明显地从LLMs中删除了相关知识，并显著降低了它们对对抗性操纵的敏感性。我们的结果突显了基于行为的遗忘评估的局限性，并呼吁未来的工作包括基于参数的评估。为了支持这一点，我们在https://github.com/yihuaihong/ConceptVectors 上发布了我们的代码和基准。