每日精选AI研究论文及翻译
检索增强语言模型能更好地适应世界状态的变化并整合长尾知识。然而,大多数现有方法仅从检索语料库中检索短连续片段,限制了对整体文档背景的全面理解。我们引入了一种新颖的方法,通过递归嵌入、聚类和总结文本片段,从底部开始构建具有不同摘要级别的树。在推断时,我们的RAPTOR模型从该树中检索,整合不同抽象级别的长文档信息。控制实验表明,使用递归摘要进行检索在多个任务上比传统的检索增强语言模型有显著改进。在涉及复杂、多步推理的问答任务中,我们展示了最先进的结果;例如,通过将RAPTOR检索与GPT-4的使用相结合,我们可以将在QuALITY基准测试中的最佳性能提高20%的绝对准确率。
在这个神经大语言模型(LLMs)时代,n-gram语言模型是否仍然相关?我们的答案是肯定的,并且我们展示了它们在文本分析和改进神经LLMs中的价值。然而,这需要在两个方面现代化n-gram模型。首先,我们以与神经LLMs相同的数据规模进行训练--1.4万亿标记。这是迄今为止构建的最大n-gram模型。其次,现有的n-gram模型使用较小的n会影响其性能;我们相反允许n可以任意大,通过引入一个新的无穷大-gram LM与回退。我们开发了一个名为infini-gram的引擎,由后缀数组驱动,可以以毫秒级延迟计算无穷大-gram(以及任意n的n-gram)概率,而不是预先计算n-gram计数表(这将非常昂贵)。无穷大-gram框架和infini-gram引擎使我们能够对人类编写和机器生成的文本进行许多新颖有趣的分析:我们发现无穷大-gram LM对于下一个标记预测具有相当高的准确性(47%),并且可以辅助神经LLMs大大降低其语言建模的困惑度。在分析机器生成的文本时,我们还观察到机器与无穷大-gram在后缀长度方面的一致性水平存在不规则性,这表明神经LLMs预训练和Transformer的位置嵌入存在缺陷。我们开源了我们的infini-gram引擎,希望能够促进更多关于如何最好地利用从大型文本语料库中检索的逐字信息的研究。
在杂乱环境中导航的四足机器人必须同时具备灵活性,以便高效执行任务,并确保安全,避免与障碍物或人类发生碰撞。现有研究要么开发保守的控制器(<1.0 m/s)以确保安全,要么专注于灵活性而不考虑潜在的致命碰撞。本文介绍了一种名为敏捷但安全(ABS)的基于学习的控制框架,为四足机器人实现了灵活且无碰撞的运动。ABS包括一种灵活策略,用于在障碍物中执行灵活的运动技能,以及一种恢复策略,用于防止故障,共同实现高速且无碰撞的导航。ABS中的策略切换由一个学习的控制理论到达-避免值网络控制,该网络还作为目标函数指导恢复策略,从而在闭环中保护机器人。训练过程涉及在模拟环境中学习灵活策略、到达-避免值网络、恢复策略和外感知表示网络。这些经过训练的模块可以直接在现实世界中通过机载传感和计算部署,实现在受限的室内和室外空间中高速且无碰撞的导航,包括静态和动态障碍物。
视频扩散模型因其能够生成既连贯又高保真度的视频而备受关注。然而,迭代去噪过程使其计算密集且耗时,从而限制了其应用。受一致性模型(CM)的启发,该模型将预训练的图像扩散模型提炼出来,以加速采样并减少步骤,以及其在有条件图像生成上的成功扩展——潜在一致性模型(LCM),我们提出了AnimateLCM,可在最少步骤内实现高保真度视频生成。我们提出了一种分离的一致性学习策略,而非直接在原始视频数据集上进行一致性学习,该策略将图像生成先验和运动生成先验的提炼分开,从而提高了训练效率并增强了生成的视觉质量。此外,为了实现在稳定扩散社区中插拔式适配器的组合以实现各种功能(例如,ControlNet 用于可控生成),我们提出了一种有效策略,将现有适配器适应到我们提炼的文本条件视频一致性模型上,或者从头开始训练适配器而不影响采样速度。我们在基于图像条件的视频生成和基于布局条件的视频生成中验证了所提出的策略,均取得了最佳结果。实验结果验证了我们提出方法的有效性。代码和权重将被公开。更多详细信息请访问 https://github.com/G-U-N/AnimateLCM。
为了有效处理长上下文,需要将大型语言模型扩展到能够处理长序列输入的能力。为了解决这个问题,我们提出了LongAlign -- 一种用于长上下文对齐的指导数据、训练和评估方法。首先,我们使用Self-Instruct构建了一个长指导数据集。为了确保数据的多样性,该数据集涵盖了来自各种长上下文来源的广泛任务。其次,我们采用了打包和排序批处理策略,以加快对具有不同长度分布的数据进行监督微调。此外,我们开发了一种损失加权方法,在打包训练期间平衡不同序列对损失的贡献。第三,我们引入了LongBench-Chat基准测试,用于评估对长度为10k-100k的查询的指导跟随能力。实验表明,LongAlign在长上下文任务中比现有的大型语言模型配方表现提高了高达30\%,同时也保持了它们在处理短、通用任务方面的熟练程度。代码、数据和长对齐模型可在https://github.com/THUDM/LongAlign 上开源。
为了实现与人类期望一致的忠实推理,大型语言模型(LLMs)需要将推理基于现实世界知识(例如网络事实、数学和物理规则)。工具帮助LLMs访问这些外部知识,但在微调LLM代理(例如Toolformer)以调用工具解决多步推理问题时仍存在挑战,其中相互连接的工具调用需要整体和高效的工具使用规划。 在这项工作中,我们提出了一种新的方法,用于让LLMs更好地利用工具进行多步推理。我们的方法,抽象链(CoA),训练LLMs首先解码带有抽象占位符的推理链,然后调用领域工具通过填充具体知识来实现每个推理链。这种带有抽象链的规划使LLMs能够学习更一般的推理策略,对不同推理问题相关的领域知识转变(例如数学结果)具有鲁棒性。它还允许LLMs并行执行外部工具的解码和调用,避免等待工具响应引起的推理延迟。在数学推理和维基问答领域,我们展示了我们的方法在分布内外测试集上始终优于以往的思维链和工具增强基线,平均QA准确率提高约6%。使用我们方法训练的LLM代理还表现出更高效的工具使用,推理速度平均比基线工具增强LLMs快约1.4倍。
生成三维模型是计算机图形学的核心,并且已经成为几十年研究的重点。随着先进的神经表示和生成模型的出现,三维内容生成领域正在迅速发展,使得能够创造出越来越高质量和多样化的三维模型。这一领域的快速增长使得跟上所有最新发展变得困难。在这项调查中,我们旨在介绍三维生成方法的基本方法论,并建立一个结构化的路线图,涵盖三维表示、生成方法、数据集以及相关应用。具体而言,我们介绍作为三维生成基础的三维表示。此外,我们提供了对生成方法快速增长文献的全面概述,按照算法范式类型进行分类,包括前馈生成、基于优化的生成、过程生成和生成新视角合成。最后,我们讨论可用的数据集、应用和面临的挑战。我们希望这项调查能帮助读者探索这一激动人心的主题,并促进三维内容生成领域的进一步发展。
大型语言模型(LLMs)的快速演进,以GPT-4等架构为代表,已经重塑了自然语言处理的格局。本文介绍了一种开创性的方法来解决与LLM预训练相关的效率问题,提出利用知识蒸馏进行跨架构转移。借鉴高效的鬣狗机制的见解,我们的方法通过将变压器模型中的注意力头替换为鬣狗,提供了一种经济高效的替代方案,同时应对处理长上下文信息的挑战,这是二次注意力机制固有的。与传统的压缩方法不同,我们的技术不仅提高了推理速度,而且在准确性和效率方面均超越了预训练。在不断演进的LLM时代,我们的工作有助于追求可持续的人工智能解决方案,平衡计算能力和环境影响之间的关系。
逼真的视频模拟在各种应用中展现出显著潜力,从虚拟现实到电影制作。这在捕捉真实世界场景中不切实际或昂贵的情况下尤为明显。现有的视频模拟方法通常无法准确建模光照环境、表示物体几何形状,或实现高度逼真感。在本文中,我们提出了“任意场景中的任意物体”(Anything in Any Scene)的新颖通用框架,用于逼真视频模拟,能够将任何物体无缝地插入现有动态视频中,强调物理逼真感。我们提出的通用框架包括三个关键过程:1)将逼真的物体整合到给定场景视频中,确保几何逼真;2)估计天空和环境光分布,并模拟逼真阴影以增强光线逼真感;3)使用风格转移网络,优化最终视频输出以最大程度实现逼真感。我们通过实验证明,“任意场景中的任意物体”框架能够生成具有出色几何逼真感、光照逼真感和逼真感的模拟视频。通过显著减轻与视频数据生成相关的挑战,我们的框架为获取高质量视频提供了高效且具有成本效益的解决方案。此外,它的应用远不止于视频数据增强,在虚拟现实、视频编辑和各种其他以视频为中心的应用中展现出有前途的潜力。请访问我们的项目网站https://anythinginanyscene.github.io,获取我们的项目代码和更多高分辨率视频结果。
我们介绍了一种名为ReplaceAnything3D模型(RAM3D)的新型文本引导的3D场景编辑方法,该方法可以替换场景中的特定对象。给定场景的多视角图像、描述要替换的对象的文本提示以及描述新对象的文本提示,我们的擦除和替换方法可以有效地在场景中交换对象,并使用新生成的内容保持多个视角的3D一致性。我们展示了ReplaceAnything3D的多功能性,将其应用于各种逼真的3D场景,展示了修改后的前景对象的结果,这些对象与场景的其余部分完美融合,而不影响整体完整性。
我们提出了CARFF:条件自编码辐射场,用于3D场景预测,这是一种根据过去观察(如2D自我中心图像)来预测未来3D场景的方法。我们的方法通过概率编码器将图像映射到可能的3D潜在场景配置分布,并通过时间预测假设场景的演变。我们的潜在场景表示条件全局神经辐射场(NeRF)来表示3D场景模型,从而实现可解释的预测和直接的下游应用。这种方法通过考虑环境状态和动态的不确定性复杂情景,扩展了以往的神经渲染工作。我们采用Pose-Conditional-VAE和NeRF的两阶段训练来学习3D表示。此外,我们利用混合密度网络自回归地预测潜在场景表示,作为部分可观测马尔可夫决策过程。我们通过在CARLA驾驶模拟器中展示了我们方法在现实场景中的效用,CARFF可用于在涉及视觉遮挡的复杂多智能体自动驾驶情景中实现高效的轨迹和应急规划。