每日精选AI研究论文及翻译
本文介绍了块变换器架构,该架构采用分层的全局到局部建模方法来自回归变换器,以减轻自注意力的推理瓶颈。为了应用自注意力,必须在每个解码步骤中从内存中检索所有先前序列的键-值(KV)缓存。因此,这种KV缓存输入输出成为批量推理中的一个重要瓶颈。我们注意到这些成本源于在全局上下文上应用自注意力,因此我们将全局建模的昂贵瓶颈隔离到较低层,并在较高层应用快速局部建模。为了减轻较低层中剩余的成本,我们将输入标记聚合成固定大小的块,然后在这个粗粒度级别应用自注意力。上下文信息被聚合到单个嵌入中,使得上层能够解码下一个标记块,而无需全局注意力。摆脱全局注意力瓶颈后,上层可以充分利用计算硬件,以最大化推理吞吐量。通过利用全局和局部模块,块变换器架构相比等效困惑度的普通变换器实现了10-20倍的推理吞吐量增益。我们的工作通过新颖的全局到局部建模方法,引入了一种优化语言模型推理的新方法。代码可在 https://github.com/itsnamgyu/block-transformer 找到。
多模态大型语言模型(MLLMs)如GPT-4V的快速发展标志着人工通用智能迈出了重要一步。现有方法主要集中在通过监督微调(SFT)来使视觉编码器与LLMs对齐,赋予LLMs多模态能力,使得MLLMs对多种语言的固有反应能力随着训练过程的演变逐渐恶化。我们在实证研究中发现,SFT数据集存在不平衡,主要由以英语为中心的图像-文本对组成,导致非英语语言的性能显著下降。这是因为在SFT过程中未能对视觉编码器和LLM进行多语言标记的对齐。本文介绍了Parrot,一种利用文本指导驱动语言级别的视觉标记对齐的新方法。Parrot使视觉标记依赖于多样化的语言输入,并使用专家混合(MoE)来促进多语言标记的对齐。具体来说,为了增强非英语视觉标记的对齐,我们使用初始视觉特征和文本嵌入计算交叉注意力,其结果然后输入MoE路由器以选择最相关的专家。所选专家随后将初始视觉标记转换为特定语言的视觉标记。此外,考虑到目前领域内缺乏用于评估多语言能力的基准,我们收集并提供了一个包含6种语言、15个类别和12,000个问题的大规模多语言多模态基准,命名为MMMB。我们的方法不仅在多语言MMBench和MMMB上展示了最先进的性能,而且在广泛的多模态任务中表现出色。Parrot的源代码和训练数据集将公开提供。
移动设备操作任务越来越成为一个受欢迎的多模态人工智能应用场景。目前的多模态大型语言模型(MLLMs),受其训练数据限制,缺乏作为操作助手有效运作的能力。相反,基于MLLM的代理通过工具调用增强功能,逐渐被应用于这一场景。然而,在移动设备操作任务中存在的两个主要导航挑战,即任务进度导航和焦点内容导航,在现有工作的单一代理架构下变得非常复杂。这是由于过长的标记序列和交错的文本-图像数据格式限制了性能。为了有效解决这些导航挑战,我们提出了Mobile-Agent-v2,一个用于移动设备操作辅助的多代理架构。该架构包括三个代理:规划代理、决策代理和反思代理。规划代理生成任务进度,使历史操作的导航更加高效。为了保持焦点内容,我们设计了一个随任务进度更新的记忆单元。此外,为了纠正错误操作,反思代理观察每次操作的结果并相应处理任何错误。实验结果表明,与Mobile-Agent的单一代理架构相比,Mobile-Agent-v2在任务完成方面实现了超过30%的改善。该代码已在https://github.com/X-PLUG/MobileAgent 开源。
现有的单图像到3D创建方法通常包括两个阶段的过程,首先生成多视图图像,然后使用这些图像进行3D重建。然而,分别训练这两个阶段会导致推断阶段存在显著的数据偏差,从而影响重建结果的质量。我们引入了一个统一的3D生成框架,命名为Ouroboros3D,它将基于扩散的多视图图像生成和3D重建集成到一个递归扩散过程中。在我们的框架中,这两个模块通过自我调节机制联合训练,使它们能够适应彼此的特征以进行稳健的推断。在多视图去噪过程中,多视图扩散模型使用由先前时间步的重建模块渲染的3D感知地图作为额外条件。具有3D感知反馈的递归扩散框架统一了整个过程并提高了几何一致性。实验证明,我们的框架优于将这两个阶段分开以及将它们结合在推断阶段的现有方法。项目页面:https://costwen.github.io/Ouroboros3D/
Transformer已迅速成为音频分类的首选,超越了基于CNN的方法。然而,音频频谱变换器(ASTs)由于自注意力而呈二次扩展。消除这种二次自注意力成本呈现出一种吸引人的方向。最近,状态空间模型(SSMs),如Mamba,在语言和视觉任务中展现了潜力。在这项研究中,我们探讨了自注意力对音频分类任务是否是必要的。通过引入音频Mamba(AuM),这是第一个无自注意力、纯SSM模型用于音频分类,我们旨在解决这个问题。我们在各种音频数据集上评估AuM - 包括六个不同的基准数据集 - 在这些数据集中,它与成熟的AST模型相比取得了可比较或更好的性能。
布局生成是实现自动化图形设计的基石,需要以视觉上令人愉悦且遵循约束的方式安排各种多模式设计元素的位置和大小。先前的方法要么在大规模应用中效率低下,要么缺乏对不同设计要求的灵活性。我们的研究引入了一个统一的框架用于自动化图形布局生成,利用多模式大语言模型(MLLM)来适应各种设计任务。相比之下,我们的数据驱动方法采用结构化文本(JSON格式)和视觉指导调整来生成布局,以满足特定的视觉和文本约束,包括用户定义的自然语言规范。我们进行了大量实验,并在公开的多模式布局生成基准测试中取得了最先进的性能,展示了我们方法的有效性。此外,鉴于现有数据集在捕捉现实世界图形设计复杂性方面的局限性,我们提出了两个新数据集用于更具挑战性的任务(用户约束生成和复杂海报),进一步验证了我们模型在实际环境中的实用性。由于其出色的可访问性和适应性,这种方法进一步自动化了大规模图形设计任务。代码和数据集将在https://github.com/posterllava/PosterLLaVA 上公开提供。
先前的研究已经通过使用生成式语言模型在通过神经音频编解码器获得的音频标记上实现了零-shot文本转语音。然而,将它们调整以适应低延迟场景仍然具有挑战性。在本文中,我们提出了LiveSpeech - 一种基于完全自回归语言模型的零-shot文本转语音方法,实现了输出音频的低延迟流式传输。为了允许在单个解码步骤内进行多个标记预测,我们提出了两点:(1) 使用考虑每帧中码书贡献并专注于困难实例的自适应码书损失权重,以及(2) 对码书进行分组并并行处理组。实验证明,我们提出的模型在内容准确性、说话者相似度、音频质量和推理速度方面取得了与最先进基线模型竞争力相当的结果,同时适用于低延迟流式应用。
视频扩散模型的显著进展为文本到视频(T2V)合成领域带来了重大进展。然而,现有的T2V合成模型在准确生成复杂运动动态方面存在困难,导致视频真实性降低。一种可能的解决方案是收集大量数据并对模型进行训练,但这将非常昂贵。为了缓解这一问题,在本文中,我们将典型的T2V生成过程重新构建为基于搜索的生成管道。我们不是扩大模型训练,而是利用现有视频作为运动先验数据库。具体而言,我们将T2V生成过程分为两个步骤:(i)对于给定的提示输入,我们搜索现有的文本-视频数据集,以找到与提示运动密切匹配的带文本标签的视频。我们提出了一种强调对象运动特征的定制搜索算法。(ii)检索到的视频被处理并提炼为运动先验,以微调预训练的基础T2V模型,随后使用输入提示生成所需的视频。通过利用从搜索视频中获取的先验,我们增强了生成视频运动的真实感。所有操作均可在单个NVIDIA RTX 4090 GPU上完成。我们针对各种提示输入验证了我们的方法与最先进的T2V模型。代码将会公开。
从人类反馈中进行强化学习(RLHF)对大型语言模型(LLMs)的最近成功至关重要,然而,这往往是一个复杂且脆弱的过程。在经典的RLHF框架中,首先训练一个奖励模型来表示人类偏好,然后在线强化学习(RL)算法利用该模型来优化LLM。这种方法的一个突出问题是奖励过度优化或奖励欺骗,即通过学习的代理奖励模型衡量的性能提高,但真实质量停滞甚至恶化。直接对齐算法(DDAs)如直接偏好优化已经成为经典RLHF流程的替代方案,通过绕过奖励建模阶段。然而,尽管DDAs不使用单独的代理奖励模型,它们仍常常因过度优化而恶化。虽然对于DDAs来说所谓的奖励欺骗现象并没有明确定义,但我们仍然发现类似的趋势:在更高的KL预算下,DAA算法表现出与经典RLHF对应物类似的退化模式。特别是,我们发现DAA方法不仅在广泛的KL预算范围内恶化,而且通常甚至在数据集完成一个时期之前就开始恶化。通过大量的实证实验,本文为DAAs制定和正式化了奖励过度优化或欺骗问题,并探讨了其在目标、训练制度和模型规模上的后果。
大型语言模型(LLMs)在复杂对话理解、推理和编码等任务中取得了极大成功,这归功于它们的新兴能力。这些新兴能力已经通过多模态扩展到包括图像、音频和视频功能。另一方面,推荐系统对于信息搜索和物品发现需求至关重要。最近,已经有尝试将LLMs应用于推荐系统。目前尝试的一个困难是,基础LLM通常未经过在推荐系统数据上的训练,而这些数据主要包含用户交互信号且通常不公开。另一个困难是,用户交互信号往往与自然语言文本具有不同的模式,目前尚不清楚LLM训练设置是否能够从交互信号中学习到比传统推荐系统方法更多的非平凡知识。最后,对于不同用例难以训练多个LLMs,并且在从推荐系统数据中学习时保留原始语言和推理能力也是困难的。为了解决这三个限制,我们提出了一个物品语言模型(ILM),它由一个物品编码器组成,用于生成文本对齐的物品表示,编码用户交互信号,并且包含一个冻结的LLM,可以理解这些物品表示并保留预训练知识。我们进行了大量实验,展示了语言对齐和用户交互知识在物品编码器中的重要性。
大型语言模型(LLMs)在各种任务中展现出令人印象深刻的能力,然而其庞大的参数规模限制了它们在资源受限环境中的适用性。知识蒸馏(KD)通过将大型教师模型的专业知识转移给紧凑的学生模型,提供了一种可行的解决方案。然而,传统的知识蒸馏技术在应用于LLMs时面临特定挑战,包括对LLM输出的访问受限、显著的师生容量差距以及继承的误校准问题。在这项工作中,我们提出了PLaD,一种新颖的基于偏好的LLM蒸馏框架。PLaD利用师生容量差异生成伪偏好对,其中师生输出中更倾向于师傅输出。然后,PLaD利用排名损失重新校准学生对序列可能性的估计,引导学生的注意力关注输出的相对质量,而不仅仅是模仿老师。PLaD避免了需要访问教师LLM内部状态的需求,解决了学生表达能力的限制,并缓解了学生的误校准问题。通过在两个序列生成任务上对各种LLMs进行大量实验,我们展示了我们提出的PLaD框架的有效性。
我们介绍Xmodel-LM,这是一个紧凑高效的语言模型,预训练了超过2万亿个标记。在我们自建的数据集(Xdata)上进行训练,该数据集基于下游任务优化平衡了中文和英文语料库,Xmodel-LM表现出色,尽管体积较小。它显著超越了现有规模相似的开源语言模型。我们的模型检查点和代码可在GitHub上公开访问,网址为https://github.com/XiaoduoAILab/XmodelLM。