每日精选AI研究论文及翻译
当前的长文本基准主要侧重于基于检索的测试,要求大型语言模型(LLMs)在广泛的输入上下文中定位特定信息,例如“大海捞针”(NIAH)基准。长文本生成指的是语言模型生成贯穿长篇章或文档的连贯且上下文准确的文本的能力。尽管最近的研究表明在NIAH和其他基于检索的长文本基准上表现出色,但缺乏用于评估长文本生成能力的基准。为了弥补这一差距并提供全面评估,我们引入了一个合成基准,LongGenBench,允许灵活配置自定义生成上下文长度。LongGenBench通过重新设计问题格式,并要求LLMs以单一、连贯的长文本答案进行响应,超越了传统基准。通过对LongGenBench的广泛评估,我们观察到:(1)API访问和开源模型在长文本生成场景中表现出性能下降,范围从1.2%到47.1%不等;(2)不同系列的LLMs表现出不同的性能下降趋势,其中Gemini-1.5-Flash模型在API访问模型中表现出最小的下降,而Qwen2系列在LongGenBench中表现出开源模型中最小的下降。
理解并准确遵循指令对于大型语言模型(LLMs)在各种任务中发挥有效作用至关重要。在这项工作中,我们严格审查了使模型能够泛化到未见指令的关键因素,为指导指令调整数据的收集提供了见解。通过受图灵完备马尔可夫算法启发的受控实验,我们证明了只有当训练数据在语义领域上足够多样化时,这种泛化才会出现。我们的研究结果还表明,仅在有限领域内进行多样化并不能确保稳健的泛化。相比之下,跨领域数据多样化,即使在受限的数据预算下,也显著增强了模型的适应能力。我们进一步将分析扩展到现实场景,包括对专家和通用模型的微调。在这两种情况下,我们证明了:1)通过增加已建立数据集的多样性,同时保持数据规模恒定,可以实现更好的性能;2)在扩大数据规模时,通过使指令的语义多样化比简单增加类似数据的数量更为有效。我们的研究为数据集整理提供了重要见解,特别是在通过扩展专家和通用场景的训练数据来优化模型性能时。我们表明,仔细考虑数据多样化是关键的:通过使用超出其核心领域的数据来训练专家模型,可以显著提高性能,而通用模型则受益于增强其在各种应用中整体遵循指令能力的多样数据混合。我们的研究结果突出了战略多样化的关键作用,并提供了改善数据质量的明确指导原则。
本研究通过引入一种名为二维自回归(DnD)Transformer的新型模型架构,解决了向量量化(VQ)自回归图像生成中的信息丢失瓶颈问题。DnD-Transformer通过引入新的自回归方向、模型深度以及序列长度方向,为图像预测更多的代码。与传统的一维自回归和之前利用类似二维图像分解的RQ-Transformer的工作相比,DnD-Transformer是一个端到端模型,可以在相同的骨干模型大小和序列长度下生成更高质量的图像,为自回归图像生成开辟了新的优化视角。此外,我们的实验表明,DnD-Transformer的潜力不仅限于生成自然图像。它甚至可以以自监督方式生成具有丰富文本和图形元素的图像,展示了对这些组合模态的理解。这在流行的视觉生成模型(如扩散模型)中尚未有过先例,表明当仅在图像上进行训练时,展现了一种视觉-语言智能的闪光点。代码、数据集和模型可在https://github.com/chenllliang/DnD-Transformer找到。
通过近期研究的重大努力,LLM作为评判者已成为评估广泛任务中文本生成质量的一种经济高效替代方案,而非人类评估。然而,LLM作为评判者与人类评估之间仍存在可靠性差距。一个重要原因是评估过程中缺乏引导性神谕。受经典文本评估中广泛使用的参考角色的启发,我们引入了RevisEval,这是一种通过响应自适应参考的新型文本生成评估范式。RevisEval的驱动力是一个关键观察,即理想的参考应保持与待评估响应的必要相关性。具体而言,RevisEval利用大型语言模型(LLMs)的文本修订能力自适应地修订响应,然后将修订后的文本作为后续评估的参考(响应自适应参考)。大量实验证明,RevisEval在自由参考和基于参考的传统评估范式上优于使用LLM作为评判者的传统参考-无参考评估范式,跨自然语言生成任务和开放式指令遵循任务。更重要的是,我们的响应自适应参考可以进一步提升经典文本度量标准,如BLEU和BERTScore,与传统参考甚至与LLM作为评判者相媲美。还进行了详细分析以确认RevisEval在减少偏见、推理成本影响和参考相关性方面的有效性。
近年来,提升大型语言模型(LLMs)在推理方面的能力引起了广泛关注。先前的研究表明,各种提示策略在帮助LLMs进行推理(称为“推理动作”)方面是有效的,例如逐步思考、在回答前反思、使用程序求解以及它们的组合。然而,这些方法通常会将静态、预定义的推理动作统一应用于所有问题,而不考虑每个问题的特定特征或任务解决LLM的能力。在本文中,我们提出了一种名为DOTS的方法,通过针对每个问题的特定特征和任务解决LLM的固有能力,实现LLMs通过最佳推理轨迹搜索动态推理。我们的方法包括三个关键步骤:i)定义可以组合成各种推理动作轨迹的原子推理动作模块;ii)通过迭代探索和评估为特定任务解决LLM搜索每个训练问题的最佳动作轨迹;iii)使用收集到的最佳轨迹来训练LLM规划未知问题的推理轨迹。特别是,我们提出了两种学习范式,即,微调外部LLM作为规划器来指导任务解决LLM,或者直接微调具有内在推理动作规划能力的任务解决LLM。我们在八个推理任务上的实验表明,我们的方法始终优于静态推理技术和基准指导微调方法。进一步的分析显示,我们的方法使LLMs能够根据问题复杂性调整计算,将更深入的思考和推理分配给更困难的问题。
自回归(AR)模型已将图像生成重新构想为下一个标记的预测,展示出显著潜力,并成为扩散模型的强大竞争对手。然而,类似于ControlNet的控制到图像生成在AR模型中仍然很少被探索。受大型语言模型进展的启发,一个自然的方法是将控制图像标记化为标记,并在解码图像标记之前将其预先填充到自回归模型中,但与ControlNet相比,仍然在生成质量上存在不足,并且效率低下。为此,我们引入了ControlAR,这是一个将空间控制集成到自回归图像生成模型中的高效且有效的框架。首先,我们探讨了AR模型的控制编码,并提出了一个轻量级的控制编码器,将空间输入(如canny边缘或深度图)转换为控制标记。然后,ControlAR利用条件解码方法,在控制标记和图像标记之间进行逐标记融合来生成下一个图像标记,类似于位置编码。与预先填充标记相比,使用条件解码显著增强了AR模型的控制能力,同时保持了模型的效率。此外,所提出的ControlAR通过条件解码和特定控制使AR模型惊人地实现了任意分辨率的图像生成。大量实验表明,所提出的ControlAR对于自回归控制到图像生成在各种输入上具有可控性,包括边缘、深度和分割蒙版。此外,定量和定性结果表明,ControlAR超越了先前的最先进的可控扩散模型,例如ControlNet++。代码、模型和演示将很快在https://github.com/hustvl/ControlAR 上提供。
推理计算的扩展释放了长上下文大型语言模型(LLMs)在不同场景下的潜力。对于知识密集型任务,增加计算资源通常用于整合更多外部知识。然而,若未有效利用这些知识,仅仅扩展上下文并不总是能提升性能。本研究探讨了用于检索增强生成(RAG)的推理扩展,探索了超越简单增加知识数量的策略。我们专注于两种推理扩展策略:上下文内学习和迭代提示。这些策略为扩展测试时计算提供了额外灵活性(例如,增加检索文档或生成步骤),从而增强了LLMs有效获取和利用上下文信息的能力。我们探讨了两个关键问题:(1)在最佳配置时,RAG性能如何受益于推理计算的扩展?(2)通过建模RAG性能与推理参数之间的关系,我们能否预测给定预算的最佳测试时计算分配?我们的观察结果显示,当进行最佳分配时,增加推理计算会导致RAG性能近乎线性增益,我们将这种关系描述为RAG的推理扩展定律。基于此,我们进一步开发了计算分配模型,用于估计在不同推理配置下的RAG性能。该模型预测了在各种计算约束下的最佳推理参数,这与实验结果密切一致。通过应用这些最佳配置,我们展示了在长上下文LLMs上扩展推理计算相比标准RAG在基准数据集上可实现高达58.9%的增益。
大型语言模型(LLMs)推动了自然语言处理各种任务的重大进展,长上下文模型因处理更长输入而备受关注。然而,Transformer架构所需的扩展键-值(KV)缓存大小加剧了内存限制,特别是在解码阶段,造成了显著瓶颈。现有旨在解决这一瓶颈的稀疏注意力机制存在两个限制:(1)它们通常无法可靠地识别最相关的注意力标记,以及(2)它们忽视了连续Transformer层中标记选择的空间连贯性,这可能导致性能下降和标记选择方面的重大开销。本文介绍了TidalDecode,这是一种简单而有效的算法和系统,通过位置持久的稀疏注意力实现了快速准确的LLM解码。TidalDecode利用现有稀疏注意力方法选择的标记的空间连贯性,并引入了一些标记选择层,执行全注意力以识别具有最高注意力分数的标记,而所有其他层则使用预先选择的标记执行稀疏注意力。这种设计使TidalDecode能够大幅减少稀疏注意力的标记选择开销,而不会牺牲生成结果的质量。在各种LLMs和任务上的评估显示,TidalDecode在减少LLM解码延迟高达2.1倍的同时,与全注意力方法的生成性能相当。
人类反馈强化学习(RLHF)已经证明在将大型语言模型(LLMs)与人类偏好对齐方面非常有效。然而,基于标记的RLHF存在长序列上的信用分配问题,延迟奖励使模型难以确定哪些行动导致成功结果。这影响了学习效率并减慢了收敛速度。在本文中,我们提出了MA-RLHF,这是一个简单而有效的RLHF框架,它将宏观动作——标记序列或更高级别的语言结构——纳入学习过程中。通过在这个更高的抽象级别上操作,我们的方法减少了行动和奖励之间的时间距离,促进了更快更准确的信用分配。这导致了更稳定的策略梯度估计,并增强了每个episode内的学习效率,而无需在训练或推理过程中增加计算复杂性。我们通过在各种模型大小和任务上进行广泛实验来验证我们的方法,包括文本摘要、对话生成、问答和程序合成。我们的方法在文本摘要和代码生成方面性能提升高达30%,在对话方面提升18%,在问答任务中提升8%。值得注意的是,我们的方法在训练时间方面比普通RLHF快1.7倍至2倍,并在进一步训练中继续胜过它。我们将在https://github.com/ernie-research/MA-RLHF 上公开我们的代码和数据。
长上下文语言模型(LCLM)以其广泛的上下文窗口而闻名,正变得日益流行。与此同时,许多长上下文基准提出了具有挑战性的任务,即使是最先进的LCLM也难以完成。然而,各种具有挑战性的长上下文任务的根源却鲜为人知。为了填补这一空白,我们进行实验,表明这些困难主要源于两个基本问题:“多匹配检索”,需要同时检索多个项目,以及“基于逻辑的检索”,需要在检索标准内进行逻辑判断。这两个问题,虽然看似简单,实际上超出了LCLM的能力,因为它们被证明具有超级多步骤(需要大量步骤来解决)的性质。这一发现可以解释为什么LLM在更高级的长上下文任务中遇到困难,为重新思考解决方案提供了更准确的视角。
在生成建模中,标记化将复杂数据简化为紧凑、结构化的表示形式,从而创造出更高效、可学习的空间。对于高维视觉数据,它减少了冗余并强调关键特征,以实现高质量的生成。当前的视觉标记化方法依赖于传统的自编码器框架,其中编码器将数据压缩为潜在表示,解码器则重建原始输入。在这项工作中,我们提出了一种新的视角,将去噪作为解码的方式,从单步重建转变为迭代细化。具体而言,我们用扩散过程取代解码器,通过迭代细化噪声以恢复原始图像,其过程由编码器提供的潜在变量指导。我们通过评估重建(rFID)和生成质量(FID)来评估我们的方法,将其与最先进的自编码方法进行比较。我们希望这项工作能够为整合迭代生成和自编码以实现改进的压缩和生成提供新的见解。
事件序列以不规则采样间隔和混合的分类和数值特征为特点,在医疗保健、金融和用户交互日志等各种现实领域中是常见的数据结构。尽管时间数据建模技术取得了进展,但在事件序列上评估其性能仍缺乏标准化基准。这导致不同论文之间结果比较复杂,因为评估协议不同,可能误导该领域的进展。我们引入了EBES,一个全面的基准测试工具,具有标准化的评估场景和协议,重点关注具有序列级目标的回归和分类问题。我们的库通过统一接口简化了基准测试、数据集添加和方法集成。它包括一个新颖的合成数据集,并提供预处理的现实世界数据集,包括最大的公开银行数据集。我们的结果对数据集进行了深入分析,确定了一些不适合模型比较的数据集。我们研究了建模时间和顺序组件的重要性,以及模型的鲁棒性和扩展性质。这些发现突出了未来研究的潜在方向。我们的基准测试旨在促进可重复研究,加快进展并增加实际影响。
视频大型语言模型(Video-LLMs)在粗粒度视频理解方面展现出卓越能力,然而,在细粒度时间定位方面存在困难。在本文中,我们介绍了Grounded-VideoLLM,这是一种新颖的视频-LLM,擅长以细粒度方式感知和推理特定视频时刻。我们发现当前的Video-LLMs在细粒度视频理解方面存在局限,因为它们缺乏有效的时间建模和时间戳表示。基于此,我们通过(1)引入额外的时间流以编码帧之间的关系和(2)使用富含特定时间知识的离散时间标记来表示时间戳来完善我们的模型。为了优化Grounded-VideoLLM的训练,我们采用了多阶段训练方案,从简单的视频字幕生成任务开始,逐渐引入越来越复杂的视频时间定位任务。为了进一步增强Grounded-VideoLLM的时间推理能力,我们还通过自动注释流程策划了一个基于实际情况的VideoQA数据集。大量实验证明,Grounded-VideoLLM不仅在细粒度定位任务(如时间句子定位、密集视频字幕生成和基于实际情况的VideoQA)方面表现出色,而且在作为通用视频理解的多功能视频助手方面显示出巨大潜力。