每日精选AI研究论文及翻译
推进次二次架构在语言模型(LMs)领域的前沿对于快速发展的自然语言处理领域至关重要。当前的创新,包括状态空间模型,最初因在语言建模任务上超越Transformer的表现而受到赞誉。然而,这些模型揭示了在基本的上下文学习能力方面存在的不足 - 这是Transformer传统上擅长的领域。Based模型作为一种混合解决方案出现,将线性Transformer与受到指数函数泰勒展开启发的核相结合,再辅以卷积网络。模仿Transformer的上下文能力,它成为该领域中的一个强有力竞争者。在我们的工作中,我们提出了一种独特而优雅的Based核的改变,增强了其在上下文学习能力上的表现,通过在Pile数据集上展示的多查询联想回忆任务和整体语言建模过程进行评估。
本文讨论了使用生成式变压器模型处理长文档的挑战。为了评估不同方法,我们引入了BABILong,这是一个新的基准,旨在评估模型在提取和处理广泛文本中的分布式事实方面的能力。我们的评估包括GPT-4和RAG的基准测试,结果显示常见方法仅适用于最多10^4个元素的序列。相比之下,通过对GPT-2进行微调并使用循环记忆增强,使其能够处理包含最多10^7个元素的任务。这一成就标志着一个重大飞跃,因为这是迄今为止任何开放神经网络模型处理的最长输入,显示了在处理长序列方面的显著改进能力。
利用用户长期参与历史对于个性化内容推荐至关重要。在自然语言处理中,预训练语言模型(PLMs)的成功导致它们被用于对用户历史和候选项进行编码,将内容推荐构建为文本语义匹配任务。然而,现有研究在处理非常长的用户历史文本和不足的用户-项交互方面仍然存在困难。在本文中,我们介绍了一个基于内容的推荐框架,SPAR,它有效地解决了从长期用户参与历史中提取整体用户兴趣的挑战。它通过利用PLM、多头注意力层和注意力稀疏机制以会话为基础对用户历史进行编码。用户和项的特征被充分融合以进行参与预测,同时保持双方的独立表示,这对于实际模型部署是高效的。此外,我们通过利用大型语言模型(LLM)从用户参与历史中提取全局兴趣来增强用户画像。在两个基准数据集上进行的大量实验表明,我们的框架优于现有的最先进方法。
大型语言模型(LLMs)已经成为自然语言处理研究人员在各种任务中的主要且重要工具。如今,许多研究人员在合成数据生成、任务评估、微调、蒸馏以及其他模型内部研究工作流程中使用LLMs。然而,使用这些模型时会遇到一些挑战,这些挑战源自它们的规模、封闭源特性以及缺乏针对这些新兴工作流程的标准化工具。这些模型迅速崭露头角以及这些独特挑战的出现立即对开放科学和使用它们的工作的可重复性产生了不利影响。在本文中,我们介绍了DataDreamer,这是一个开源的Python库,允许研究人员编写简单的代码来实现强大的LLM工作流程。DataDreamer还帮助研究人员遵循我们提出的最佳实践,以促进开放科学和可重复性。该库和文档可在 https://github.com/datadreamer-dev/DataDreamer 获取。
视频制作变得越来越受欢迎,但编辑所需的专业知识和努力常常对初学者构成障碍。在本文中,我们探讨了将大型语言模型(LLMs)整合到视频编辑工作流程中以减少这些障碍。我们的设计愿景体现在LAVE中,这是一个提供LLM动力代理辅助和语言增强编辑功能的新颖系统。LAVE自动生成用户素材的语言描述,为LLM处理视频和协助编辑任务奠定基础。当用户提供编辑目标时,代理规划并执行相关操作以实现目标。此外,LAVE允许用户通过代理或直接UI操作来编辑视频,提供灵活性并实现对代理操作的手动调整。我们的用户研究包括从初学者到熟练编辑人员的八名参与者,证明了LAVE的有效性。结果还揭示了用户对所提出的LLM辅助编辑范式以及其对用户创造力和共同创作感的看法。根据这些发现,我们提出了设计启示,以指导未来代理辅助内容编辑的发展。
自动并行评估已成为评估大型语言模型(LLMs)响应质量的一种有前途的方法。然而,分析这种评估方法的结果会带来可伸缩性和可解释性方面的挑战。本文介绍了LLM比较器,这是一种新颖的可视化分析工具,用于交互式地分析自动并行评估的结果。该工具支持用户进行交互式工作流程,以了解模型何时以及为何比基准模型表现更好或更差,以及两个模型的响应在质量上有何不同。我们通过与一家大型科技公司的研究人员和工程师密切合作,迭代设计和开发了该工具。本文详细介绍了我们发现的用户挑战、工具的设计和开发,以及与定期评估其模型的参与者进行的观察性研究。
大型语言模型(LLMs)在会话系统中越来越普遍,这是因为它们在一般情境中具有先进的理解和生成能力。然而,在需要不仅生成响应还要在特定任务和领域内有效跟踪对话状态(DST)的任务导向对话(TOD)中,它们的有效性仍然不尽人意。在这项工作中,我们提出了一种新颖的FnCTOD方法,通过函数调用来解决LLMs中的DST。这种方法改进了零-shot DST,使其能够适应各种领域,而无需进行大量数据收集或模型调整。我们的实验结果表明,我们的方法在使用开源模型和专有LLMs时均取得了出色的性能:通过上下文提示,它使各种7B或13B参数模型能够超越ChatGPT之前的最先进技术水平(SOTA),并提高ChatGPT的性能,超过SOTA 5.6%的平均JGA。GPT-3.5和GPT-4的单独模型结果分别提高了4.8%和14%。我们还展示,通过在一小组多样化的任务导向对话上进行微调,我们可以为中等规模的模型,特别是13B参数的LLaMA2-Chat模型,提供函数调用功能和DST性能,这与ChatGPT相当,同时保持其聊天功能。我们计划开源实验代码和模型。
扩散模型在图像和视频生成方面表现出高效性;然而,由于单尺度训练数据,它们在生成不同尺寸图像时仍面临构图挑战。调整大型预训练扩散模型以满足更高分辨率的需求需要大量计算和优化资源,但实现与低分辨率模型相媲美的生成能力仍然困难。本文提出了一种新颖的自级联扩散模型,利用从训练良好的低分辨率模型获得的丰富知识,快速适应更高分辨率图像和视频生成,采用无调整或廉价上采样器调整范式。通过集成一系列多尺度上采样器模块,自级联扩散模型可以高效地适应更高分辨率,保留原始构图和生成能力。我们进一步提出了一种基于中心引导的噪声重新调度策略,加快推断过程并改善局部结构细节。与完全微调相比,我们的方法实现了5倍的训练加速,并且仅需要额外的0.002M调整参数。大量实验证明,我们的方法可以通过仅微调10k步骤快速适应更高分辨率图像和视频合成,几乎不增加推断时间。
本文证明了逐步对齐的语言模型能够有效地连接冻结的视觉编码器和大型语言模型(LLMs)。虽然视觉编码器和LLMs的基本架构和预训练方法已得到广泛研究,但近期作品中视觉-语言适配器的架构和训练策略却存在显著差异。我们的研究对最先进的感知重采样器架构进行了彻底探索并建立了强大的基准。然而,我们观察到,使用感知重采样器进行视觉-语言对齐表现出较慢的收敛速度和有限的可扩展性,缺乏直接监督。为解决这一问题,我们提出了PaLM2-VAdapter,采用逐步对齐的语言模型作为视觉-语言适配器。与使用感知重采样器的强大基准相比,我们的方法在实证上表现出更快的收敛速度、更高的性能和更强的可扩展性。在各种视觉问答(VQA)和图像、视频字幕任务上进行了大量实验,证明我们的模型具有最先进的视觉理解和多模态推理能力。值得注意的是,我们的方法在比最先进的大型视觉-语言模型少30~70%的参数的情况下实现了这些进展,标志着显著的效率提升。
从高度稀疏视图重建和渲染3D对象对于推动3D视觉技术的应用和提升用户体验至关重要。然而,稀疏视图中的图像仅包含非常有限的3D信息,导致两个重要挑战:1)建立多视一致性困难,因为用于匹配的图像太少;2)部分遗漏或高度压缩的对象信息,因为视图覆盖不足。为了解决这些挑战,我们提出了高斯对象(GaussianObject)框架,用高斯飘点(Gaussian splatting)表示和渲染3D对象,仅使用4个输入图像即可实现高质量渲染。我们首先介绍了视觉外壳(visual hull)和浮动体消除(floater elimination)技术,明确将结构先验信息注入初始优化过程,帮助建立多视一致性,得到粗糙的3D高斯表示。然后,我们基于扩散模型构建了高斯修复模型,以补充遗漏的对象信息,进一步优化高斯。我们设计了自生成策略来获取用于训练修复模型的图像对。我们的高斯对象在几个具有挑战性的数据集上进行了评估,包括MipNeRF360、OmniObject3D和OpenIllumination,仅使用4个视图实现了强大的重建结果,并显著优于先前的最先进方法。
我们提出了通用操纵界面(UMI)——一个数据收集和策略学习框架,允许直接从野外人类示范转移到可部署的机器人策略。UMI采用手持夹具结合精心设计的界面,实现了便携、低成本和信息丰富的数据收集,适用于具有挑战性的双手和动态操纵示范。为促进可部署的策略学习,UMI结合了精心设计的策略界面,具有推断时间匹配的延迟和相对轨迹动作表示。由此产生的学习策略与硬件无关,并可在多个机器人平台上部署。UMI框架具备这些功能,解锁了新的机器人操纵能力,实现了零-shot通用的动态、双手、精确和长视程行为,只需为每个任务更改训练数据。我们通过全面的真实世界实验展示了UMI的多功能性和有效性,通过UMI学习的策略在多样的人类示范训练后,零-shot通用于新环境和物体。UMI的硬件和软件系统在https://umi-gripper.github.io上开源。
大型语言模型(LLMs)部署的多样化背景需要能够修改或自定义默认模型行为,以整合微妙的需求和偏好。指定这种模型调整的便捷接口是高级口头反馈,例如“在给老板起草电子邮件时不要使用表情符号”。然而,尽管编写高级反馈比从人类反馈(RLHF)中收集注释要简单得多,我们发现仅仅提示模型使用这种反馈会导致将反馈过度泛化到不相关的情境中。我们研究了如何在不产生这种过度泛化的情况下整合口头反馈的问题,提出了一种新方法,即带有受限偏好优化的情境化评论(C3PO)。C3PO利用一小段高级反馈生成一个指定如何(以及如何不)应用反馈的小型合成偏好数据集。然后,它根据合成偏好数据微调模型,同时最小化在不适用反馈的提示中与原始模型的差异。我们的实验结果表明,我们的方法有效地将口头反馈应用于相关场景,同时保留其他情境的现有行为。对于人类和GPT-4生成的高级反馈,C3PO与上下文基线相比有效地遵循给定的反馈,同时减少了30%的过度泛化。