每日精选AI研究论文及翻译
检索增强生成(Retrieval-Augmented Generation,RAG)已成为通过外部知识检索增强大型语言模型(Large Language Models,LLMs)的强大范式。尽管受到广泛关注,但现有的学术研究主要集中在单轮RAG上,未能有效解决现实应用中多轮对话的复杂性,存在重大空白。为弥补这一空白,我们引入了CORAL,一个旨在评估RAG系统在真实多轮对话场景中的大规模基准。CORAL包括从维基百科自动衍生的多样信息获取对话,并解决了诸如开放域覆盖、知识密集度、自由形式回复和主题转换等关键挑战。它支持对话式RAG的三个核心任务:段落检索、回复生成和引文标记。我们提出了一个统一框架,以标准化各种对话式RAG方法,并在CORAL上对这些方法进行全面评估,展示了改进现有方法的重大机会。
由于在各个领域表现出色,变压器已成为基础模型中占主导地位的架构。然而,扩展这些模型的巨大成本仍然是一个重要关注点。这个问题主要源于它们对线性投影中固定数量参数的依赖。当引入架构修改(例如通道维度)时,整个模型通常需要从头开始重新训练。随着模型规模的不断增长,这种策略导致计算成本越来越高,变得难以持续。为了解决这个问题,我们引入了TokenFormer,这是一种本地可扩展的架构,利用注意力机制不仅用于输入令牌之间的计算,还用于令牌与模型参数之间的交互,从而增强了架构的灵活性。通过将模型参数视为令牌,我们用我们的令牌-参数注意力层取代了变压器中的所有线性投影,其中输入令牌充当查询,模型参数充当键和值。这种重新表述允许逐步有效地扩展模型,而无需重新从头开始训练。我们的模型通过逐步添加新的键-值参数对,从124M扩展到1.4B参数,实现了与从头开始训练的变压器相当的性能,同时大大降低了训练成本。代码和模型可在https://github.com/Haiyang-W/TokenFormer找到。
近年来,强化学习(RL)领域出现了一种趋势,即通过序列建模在大规模数据集上离线训练大型动作模型。现有模型主要基于Transformer架构,这导致了强大的智能体。然而,由于Transformer为基础的方法推理时间较慢,因此在实时应用(如机器人技术)中并不实用。最近,提出了现代循环架构,如xLSTM和Mamba,这些架构在训练过程中表现出类似Transformer架构的并行化优势,同时提供快速推理能力。在这项工作中,我们研究了这些现代循环架构在大型动作模型中的适用性。因此,我们提出了一个带有xLSTM核心的大型循环动作模型(LRAM),具有线性时间推理复杂度和自然序列长度外推能力。对来自6个领域的432项任务进行的实验表明,LRAM在性能和速度方面与Transformer相比具有明显优势。
我们提出了REM,这是一个用于在视频中对通过自然语言描述的各种概念进行分割的框架。我们的方法利用了在互联网规模数据集上通过视频扩散模型学习的视觉-语言表示。我们方法的一个关键见解是尽可能保留生成模型的原始表示,同时在狭领域Referral Object Segmentation数据集上进行微调。因此,我们的框架能够准确地分割和跟踪罕见和未见过的对象,尽管是在一组有限类别的对象掩模上进行训练的。此外,它可以推广到非对象动态概念,例如在我们新引入的Referral Video Process Segmentation(Ref-VPS)基准测试中展示的海浪拍打等情况。我们的实验表明,REM在领域内数据集(如Ref-DAVIS)上表现与最先进方法相当,而在领域外数据上,根据区域相似性的表现超过它们高达十二个百分点,利用了互联网规模预训练的优势。
大型语言模型(LLMs)在具有挑战性的推理基准上取得了良好的性能,但也可能出现基本推理错误。当涉及理解LLMs推理能力背后的机制时,这种对比行为令人困惑。一个假设是,在常见推理基准上越来越高且几乎饱和的性能可能是由于类似问题的记忆。在本文中,我们通过对基于“骑士与诡计者”(K&K)谜题的动态生成的逻辑推理基准进行定量记忆度量,系统地研究了这一假设。我们发现,LLMs在微调后可以插值训练谜题(达到几乎完美的准确率),但在这些谜题稍作扰动时会失败,这表明模型在解决这些训练谜题时严重依赖记忆。另一方面,我们表明,虽然微调会导致大量记忆,但也始终改善泛化性能。通过扰动测试、跨难度级别的可转移性、探测模型内部以及使用错误答案进行微调的深入分析表明,尽管训练数据被记忆,LLMs仍学会在K&K谜题上推理。这种现象表明,LLMs在记忆和真正推理能力之间展现出复杂的相互作用。最后,我们通过每个样本的记忆度量分数的分析揭示了LLMs在解决逻辑谜题时如何在推理和记忆之间切换。我们的代码和数据可在https://memkklogic.github.io 上获取。
读者在阅读文本时可能有不同的目标。 这些目标是否可以从他们在文本上的眼动模式中解码出来?在这项工作中,我们首次研究了是否可能解码日常生活中常见的两种阅读目标:信息搜索和普通阅读。利用大规模眼动跟踪数据,我们将广泛应用最先进的眼动和文本模型,涵盖不同的架构和数据表示策略,并进一步引入新的模型集成。我们系统地评估这些模型在三个泛化级别上的表现:新的文本项、新的参与者以及两者的组合。我们发现眼动包含了对这一任务非常有价值的信号。我们进一步进行了错误分析,基于先前关于普通阅读和信息搜索之间差异的经验发现,并利用丰富的文本注释。这种分析揭示了文本项和参与者眼动的关键特性,这些特性导致了任务的困难。
混合专家(MoE)模型通过将每个标记路由到每一层中的少数专家来提高密集语言模型的效率和可伸缩性。在本文中,我们展示了一个对手可以安排他们的查询出现在与受害者查询相同的示例批次中,从而利用专家选择路由来完全披露受害者提示的方法。我们成功地在一个两层Mixtral模型上展示了这种攻击的有效性,利用了torch.topk CUDA实现的处理并列情况的行为。我们的结果表明,在我们考虑的设置中,我们可以使用O({VM}^2)个查询(其中词汇量V和提示长度M)或平均每个标记使用100个查询来提取整个提示。这是第一个利用架构缺陷来提取用户提示的攻击,引入了一类新的LLM漏洞。
开源大型语言模型正在逐渐变得更加普遍且受到研究人员和从业者的欢迎。虽然在开放权重模型方面已经取得了显著进展,但开放训练数据仍然是主要开放权重模型创建者尚未采纳的做法。与此同时,研究人员正在努力使语言模型更加安全。我们提出了一个数据筛选流程,以减少在公共领域数据训练的模型产生有害输出。在处理公共领域数据时存在独特挑战,因为这些来源在形式和内容上与网络文本不同。许多来源是历史文档,并且是光学字符识别(OCR)的结果。因此,目前最先进的有毒性过滤方法通常对于开放数据模型来说是不可行或不适当的。在本文中,我们介绍了一个新的完全开源的用于开放数据有毒性过滤的流程。我们的贡献有三个方面。我们创建了一个自定义训练数据集,ToxicCommons,其中包含根据五个不同维度(基于种族/原始、基于性别/性别、宗教、基于能力的歧视和暴力)对文本进行分类的文本。我们使用这个数据集来训练一个自定义分类器,Celadon,可以更高效地在更大规模上检测开放数据中的有害内容。最后,我们描述了一种平衡的内容过滤方法,该方法优化了与用于训练的过滤数据相关的安全过滤。
人类天生具有一种互补学习系统,它连接了对一般世界动态的缓慢学习和从新经历中快速存储情节记忆的过程。然而,先前的视频生成模型主要侧重于通过对大量数据进行预训练来进行缓慢学习,忽视了对于存储情节记忆至关重要的快速学习阶段。这一疏忽导致在生成更长视频时跨时间帧之间存在不一致性,因为这些帧超出了模型的上下文窗口。为此,我们引入了SlowFast-VGen,这是一种新颖的双速学习系统,用于基于动作的长视频生成。我们的方法结合了用于缓慢学习世界动态的掩码条件视频扩散模型,以及基于时间LoRA模块的推理时快速学习策略。具体而言,快速学习过程根据局部输入和输出更新其时间LoRA参数,从而有效地在其参数中存储情节记忆。我们进一步提出了一种慢快学习循环算法,将内部快速学习循环无缝集成到外部缓慢学习循环中,实现了对先前多情节经历的上下文感知技能学习的回忆。为了促进对近似世界模型的缓慢学习,我们收集了一个包含20万个视频的大规模数据集,其中包括语言动作注释,涵盖了各种场景。大量实验证明,SlowFast-VGen在基于动作的视频生成的各种指标上优于基线模型,实现了514的FVD分数,而基线模型为782,并在更长视频中保持一致性,平均为0.37个场景切换,而基线模型为0.89。慢快学习循环算法还显著提升了长期规划任务的性能。项目网站:https://slowfast-vgen.github.io
我们提出了一个针对大型语言模型的基准测试,旨在解决数据科学中最知识密集的任务之一:编写特征工程代码,这需要领域知识以及对基础问题和数据结构的深刻理解。模型接收一个提示中的数据集描述,并被要求生成相应的转换代码。评估分数根据在修改后的数据集上拟合的XGBoost模型相对于原始数据的改进来确定。通过对最先进模型的广泛评估,并与已建立的基准进行比较,我们展示了我们提议的FeatEng能够廉价高效地评估大型语言模型的广泛能力,与现有方法形成对比。
医学信息检索(MIR)对于从多种来源检索相关的医学知识至关重要,包括电子健康记录、科学文献和医学数据库。然而,在医学领域实现有效的零样本密集检索面临重大挑战,因为缺乏相关标记数据。本文介绍了一种名为自学习假设文档嵌入(SL-HyDE)的新方法来解决这个问题。SL-HyDE利用大型语言模型(LLMs)作为生成器,基于给定查询生成假设文档。这些生成的文档包含关键的医学背景,指导密集检索器识别最相关的文档。自学习框架逐渐改进伪文档生成和检索,利用未标记的医学语料库,而无需任何相关标记数据。此外,我们提出了中国医学信息检索基准(CMIRB),这是一个基于真实医学场景的全面评估框架,包括五个任务和十个数据集。通过在CMIRB上对十种模型进行基准测试,我们为评估医学信息检索系统建立了严格的标准。实验结果表明,SL-HyDE在检索准确性方面明显优于现有方法,同时展示了在各种LLM和检索器配置上的强大泛化能力和可扩展性。CMIRB数据和评估代码可在以下网址公开获取:https://github.com/CMIRB-benchmark/CMIRB。