每日精选AI研究论文及翻译
随着文本到图像模型(例如,稳定扩散)以及相应的个性化技术(如DreamBooth和LoRA)的进步,每个人都可以以较低的成本将他们的想象力体现为高质量图像。随之而来的是对图像动画技术的巨大需求,以进一步将生成的静态图像与运动动态相结合。在本报告中,我们提出了一个实用框架,用于一劳永逸地为大多数现有的个性化文本到图像模型添加动画效果,节省了针对特定模型的调整工作。所提出的框架的核心是将一个新初始化的运动建模模块插入冻结的文本到图像模型中,并在视频剪辑上对其进行训练,以提炼合理的运动先验知识。一旦训练完成,通过简单地注入这个运动建模模块,所有从相同基础T2I衍生的个性化版本都会立即成为由文本驱动的模型,产生多样化和个性化的动画图像。我们对跨动漫图片和逼真照片领域的几个公共代表性个性化文本到图像模型进行评估,并展示了我们提出的框架如何帮助这些模型生成在时间上平滑的动画片段,同时保留其输出的领域和多样性。代码和预训练权重将在https://animatediff.github.io/ 上公开提供。
大型语言模型(LLMs)已经制定了推动人工通用智能发展的蓝图。其主要目标是作为以人为中心(有帮助、诚实、无害)的助手。与人类的对齐被认为至关重要,而强化学习与人类反馈(RLHF)作为支撑这一追求的关键技术范式应运而生。目前的技术路线通常包括奖励模型来衡量人类偏好,近端策略优化(PPO)来优化策略模型输出,以及过程监督来提高逐步推理能力。然而,由于奖励设计、环境交互和代理训练的挑战,再加上大型语言模型的巨大试错成本,AI研究人员在激励技术对齐和LLMs安全落地的发展方面面临重大障碍。RLHF的稳定训练仍然是一个谜。在第一份报告中,我们剖析了RLHF的框架,重新评估了PPO的内部运作,并探讨了构成PPO算法的各部分如何影响策略代理训练。我们确定策略约束是PPO算法有效实施的关键因素。因此,我们探索了PPO-max,这是PPO算法的高级版本,可以有效提高策略模型的训练稳定性。基于我们的主要结果,我们对RLHF的能力进行了全面分析,与SFT模型和ChatGPT进行了比较。缺乏开源实现对LLMs对齐的调查提出了重大挑战。因此,我们急于发布技术报告、奖励模型和PPO代码。
最近在使用大型预训练模型在3D视觉领域的下游任务中进行创意应用方面取得了显著进展,比如文本到形状生成。这促使我们研究如何有效地利用这些预训练模型从草图中生成3D形状,这在很大程度上一直是一个开放性挑战,原因是由于有限的草图-形状配对数据集以及草图中抽象程度的差异。我们发现,在训练过程中将3D生成模型的条件设置为特征(从冻结的大型预训练视觉模型中获得)的合成渲染,使我们能够在推断时有效地从草图中生成3D形状。这表明大型预训练视觉模型的特征携带语义信号,对领域转移具有韧性,即使我们只使用RGB渲染,也能在推断时泛化到草图。我们进行了一系列全面的实验,研究了不同的设计因素,并展示了我们简单方法的有效性,可以根据输入草图生成多个3D形状,而无需在训练过程中使用任何配对数据集。
我们提出了Emu,这是一个基于Transformer的多模态基础模型,能够无缝地在多模态环境中生成图像和文本。这个全能模型可以通过一个统一的自回归训练过程,接受任何单模态或多模态数据输入(例如,交错的图像、文本和视频)。首先,视觉信号被编码为嵌入,然后与文本标记一起形成一个交错的输入序列。Emu随后进行端到端训练,以统一的目标对多模态序列中的下一个文本标记进行分类或回归下一个视觉嵌入。这种多功能的多模态性使得可以在规模上探索各种各样的预训练数据源,例如交错帧和文本的视频、交错图像和文本的网页,以及大规模的图像-文本对和视频-文本对。Emu可以作为通用的多模态接口,用于图像到文本和文本到图像的任务,并支持上下文中的图像和文本生成。在包括图像描述、视觉问答、视频问答和文本到图像生成在内的广泛范围的零样本/少样本任务中,Emu相比最先进的大型多模态模型表现出卓越的性能。通过指导调整展示了多模态助手等扩展功能,表现出令人印象深刻的性能。
本文介绍了Semantic-SAM,这是一个通用的图像分割模型,可以实现在任意所需粒度上对任何物体进行分割和识别。我们的模型具有两个关键优势:语义感知和粒度丰富性。为了实现语义感知,我们整合了跨三个粒度的多个数据集,并引入了对象和部件的解耦分类。这使得我们的模型能够捕获丰富的语义信息。对于多粒度能力,我们在训练过程中提出了一种多选学习方案,使每次点击能够生成对应于多个地面真实标记的多个级别的蒙版。值得注意的是,这项工作是首次尝试在SA-1B、通用和部分分割数据集上联合训练模型。实验结果和可视化展示表明,我们的模型成功实现了语义感知和粒度丰富性。此外,将SA-1B训练与其他分割任务(如全景和部分分割)相结合,可以提高性能。我们将提供代码和演示以供进一步探索和评估。
我们介绍了VampNet,一种用于音乐合成、压缩、修复和变化的掩码声学标记建模方法。我们在训练过程中使用可变掩码计划,通过在推断过程中应用各种掩码方法(称为提示)来从模型中采样连贯的音乐。VampNet是非自回归的,利用双向Transformer架构,在前向传递中关注所有标记。仅需36次采样传递,VampNet就能生成连贯的高保真音乐波形。我们展示了通过以各种方式提示VampNet,我们可以将其应用于音乐压缩、修复、扩展、延续和变化循环(vamping)等任务。适当提示的情况下,VampNet能够保持音乐的风格、流派、乐器和其他高层次方面。这种灵活的提示能力使VampNet成为强大的音乐共创工具。代码和音频样本可在线获取。
人类智能源于认知协同的概念,即不同认知过程之间的协作和信息整合产生比独立认知过程更优越的结果。尽管大型语言模型(LLMs)已经展示出作为通用任务解决代理的有希望的性能,但它们仍然在需要深入领域知识和复杂推理的任务中遇到困难。在这项工作中,我们提出了独奏表现提示(SPP),通过与多个人物进行多轮自我协作,将单个LLM转化为认知协同者。认知协同者指的是与多个思维合作,结合其个体优势和知识以增强解决问题和复杂任务整体表现的智能代理。通过根据任务输入动态识别和模拟不同人物,SPP释放了LLMs中认知协同的潜力。我们发现,在LLMs中分配多个细粒度人物比使用单个或固定数量的人物能更好地激发解决问题的能力。我们在三个具有挑战性的任务上评估了SPP:知识创作题、密码合作和逻辑格子谜题,涵盖了知识密集型和推理密集型任务。与仅增强LLMs推理能力的先前作品(如Chain-of-Thought)不同,SPP有效地激发了内部知识获取能力,减少了幻觉,并保持了强大的推理能力。代码、数据和提示可在以下网址找到:https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git。
我们观察到,预训练的大型语言模型(LLMs)能够自回归地完成复杂的令牌序列,从由概率上下文无关文法(PCFG)生成的任意序列,到在抽象推理语料库(ARC)中发现的更丰富的空间模式,这是一个通用人工智能基准,以ASCII艺术的形式呈现。令人惊讶的是,即使序列是使用从词汇表中随机抽样的令牌表示,模式完成的能力也可以部分保留。这些结果表明,在没有任何额外训练的情况下,LLMs可以作为通用序列建模器,通过上下文学习驱动。在这项工作中,我们研究了这些零-shot能力如何应用于机器人领域的问题,从推断代表随时间变化的状态的数字序列,完成简单动作,到按最少到最多提示奖励条件轨迹,可以发现和表示闭环策略(例如,CartPole的稳定控制器)。尽管由于延迟、上下文大小限制和计算成本等原因,目前难以将其部署到实际系统中,但利用LLMs驱动低级控制的方法可能为我们展示了单词之间的模式如何转化为行动提供了令人兴奋的一瞥。
针对开发世界语言的自然语言处理系统的挑战之一是理解它们如何推广到与现实应用相关的类型学差异。为此,我们提出了M2C,这是一个考虑形态的框架,用于对自然语言处理模型进行行为测试。我们使用M2C 生成测试,探究模型在12种类型多样的语言中针对特定语言特征的行为。我们评估了最先进的语言模型在生成的测试中的表现。虽然模型在英语中大多数测试中表现出色,但我们强调了对特定类型学特征的推广失败,比如斯瓦希里语中的时间表达和芬兰语中的合成所有格。我们的发现促使开发能够解决这些盲点的模型。
大型语言模型(LLMs)在自然语言处理领域取得了显著成功,利用自然语言实现更好的人机交互。然而,如何将语音信号无缝集成到LLMs中尚未得到充分探讨。"仅解码器"架构在语音处理任务中也未被深入研究。在这项研究中,我们引入了Speech-LLaMA,一种新颖方法,有效地将声学信息融入基于文本的大型语言模型中。我们的方法利用连接主义时间分类和一个简单的音频编码器,将压缩的声学特征映射到LLM的连续语义空间中。此外,我们进一步探讨了仅解码器架构用于语音转文本任务,通过仅使用语音-文本配对数据训练一个规模较小且随机初始化的Speech-LLaMA模型。我们在多语言语音转文本翻译任务上进行实验,并展示了明显优于强基线的改进,突显了仅解码器模型在语音转文本转换中的潜在优势。
国际机构可能在确保先进人工智能系统造福人类方面发挥重要作用。国际合作可以释放人工智能进一步促进可持续发展的能力,协调监管工作可以减少创新障碍和利益传播的障碍。相反,强大通用人工智能系统的潜在危险能力在其开发和部署中产生全球外部性,国际努力进一步推动负责任的人工智能实践可能有助于管理它们带来的风险。本文确定了一系列可在国际层面开展的治理功能,以应对这些挑战,从支持获取尖端人工智能系统到制定国际安全标准。它将这些功能分为四种机构模型,展示了内部协同效应,并在现有组织中具有先例:1) 一个尖端人工智能委员会,促进专家就先进人工智能的机遇和风险达成共识,2) 一个先进人工智能治理组织,制定国际标准以管理来自先进模型的全球威胁,支持其实施,并可能监督未来治理体制的合规性,3) 一个尖端人工智能合作组织,促进获取尖端人工智能,以及4) 一个人工智能安全项目,汇集领先的研究人员和工程师,推动人工智能安全研究。我们探讨了这些模型的实用性,并确定了关于它们可行性的未决问题。
程序合成或代码生成的目标是根据给定的描述生成可执行代码。最近,越来越多的研究采用强化学习(RL)来提高大型语言模型(LLMs)在代码方面的性能。然而,这些RL方法仅使用离线框架,限制了它们对新样本空间的探索。此外,目前利用单元测试信号的方法相当简单,未考虑代码中特定错误位置。为了解决这些问题,我们提出了RLTF,即基于单元测试反馈的强化学习,这是一种新颖的在线RL框架,具有多粒度的单元测试反馈,用于优化代码LLMs。我们的方法在训练过程中实时生成数据,并同时利用细粒度的反馈信号引导模型生成更高质量的代码。大量实验证明,RLTF在APPS和MBPP基准测试上实现了最先进的性能。我们的代码可在以下链接找到:https://github.com/Zyq-scut/RLTF。
在进行人工智能研究时,一致性和可靠性至关重要。许多著名的研究领域,如目标检测,都已经通过坚实的基准框架进行了比较和验证。在AlphaFold2之后,蛋白质折叠任务已经进入了一个新阶段,许多方法都是基于AlphaFold2的组件提出的。在蛋白质折叠中,一个统一的研究框架的重要性包括实现和基准,以便一致且公平地比较各种方法。为了实现这一目标,我们提出了Solvent,一个支持最先进模型重要组件的蛋白质折叠框架,以即插即用的方式支持不同模型的统一代码库。Solvent包含了不同模型的实现,并支持在相同数据集上对定义的模型进行训练和评估。我们对知名算法及其组件进行了基准测试,并提供了有益于蛋白质结构建模领域的实验结果。我们希望Solvent能提高所提出模型的可靠性和一致性,并在速度和成本效率上取得提升,从而加速蛋白质折叠建模研究。该代码可在https://github.com/kakaobrain/solvent找到,并且该项目将继续开发。
我们提出了一个系统,用于重新排列场景中的物体,以实现所需的物体-场景放置关系,例如将一本书插入书架的开放槽中。该流程适用于新颖的几何形状、姿势以及场景和物体的布局,并且是通过示范训练直接在3D点云上运行的。我们的系统克服了与给定场景存在许多几何上相似的重新排列解决方案相关的挑战。通过利用迭代姿势去噪训练过程,我们可以拟合多模态示范数据并产生多模态输出,同时保持精确和准确。我们还展示了在忽略损害泛化和精度的无关全局结构的同时,通过对相关局部几何特征进行调节的优势。我们在模拟和真实世界中展示了我们的方法,涉及需要处理多模态和在物体形状和姿势上的泛化的三个不同重新排列任务。项目网站、代码和视频:https://anthonysimeonov.github.io/rpdiff-multi-modal/
语音输入越来越重要。现有系统允许用户进行语音输入和语音编辑,但其命令语言受限于由触发词调用的平面模板。本研究探讨了允许用户在自然语言中以口头编辑命令中断其语音输入的可行性。我们引入了一个新任务和数据集TERTiUS,用于研究此类系统。为了实时支持这种灵活性,系统必须逐步分割和分类语音片段,确定其是语音输入还是命令,并解释那些命令片段。我们尝试使用大型预训练语言模型来预测编辑后的文本,或者预测一个小型文本编辑程序。实验表明,在模型准确性和延迟之间存在自然的权衡:较小模型在1.3秒的延迟下实现30%的最终准确率,而较大模型在7秒的延迟下实现55%的最终准确率。
基于视觉的远程操作为机器人赋予人类水平的智能,使其能够与环境进行物理交互,同时只需要低成本的摄像头传感器。然而,当前基于视觉的远程操作系统是针对特定机器人模型和部署环境进行设计和工程化的,随着机器人模型数量的增加和操作环境多样性的提高,其扩展性较差。在本文中,我们提出了AnyTeleop,一个统一且通用的远程操作系统,支持在单个系统内使用多种不同的机械臂、手部、现实情境和摄像头配置。尽管旨在为仿真器和真实硬件的选择提供极大的灵活性,我们的系统仍能实现出色的性能。在真实世界的实验中,AnyTeleop可以在相同机器人的情况下,以更高的成功率胜过先前为特定机器人硬件设计的系统。在仿真中的远程操作中,与专门为该仿真器设计的先前系统相比,AnyTeleop可以实现更好的模仿学习性能。项目页面:http://anyteleop.com/。