每日精选AI研究论文及翻译
软件是我们人类手中最强大的工具之一;它使熟练的程序员能够以复杂和深远的方式与世界互动。与此同时,由于大型语言模型(LLMs)的改进,人工智能代理也迅速发展,这些代理与周围环境互动并产生影响。在本文中,我们介绍了OpenDevin,这是一个用于开发强大而灵活的人工智能代理的平台,这些代理与人类开发者类似地与世界互动:编写代码、与命令行交互和浏览网页。我们描述了该平台如何实现新代理、与沙盒环境安全互动以进行代码执行、协调多个代理之间的交互,并整合评估基准。基于我们目前整合的基准,我们对超过15项具有挑战性的任务进行了代理评估,包括软件工程(例如SWE-Bench)和网络浏览(例如WebArena)等。OpenDevin采用宽松的MIT许可证发布,是一个跨学术界和工业界的社区项目,拥有来自160多位贡献者的超过1.3K次贡献,并将不断改进。
视觉语言模型(VLMs)已经迅速发展,这得益于大型语言模型(LLMs)的成功。虽然模型架构和训练基础设施迅速发展,但数据筛选仍未被充分探讨。当数据数量和质量成为瓶颈时,现有工作要么直接从互联网上获取更多原始数据,但这些数据的质量无法保证,要么从黑盒商业模型(例如GPT-4V / Gemini)中提取信息,导致性能受到该模型的上限限制。在这项工作中,我们引入了一种新方法,包括自我增强步骤和专家增强步骤,以迭代改善数据质量和模型性能。在自我增强步骤中,VLM重新为其自身的预训练数据加上标题以增强数据质量,然后从头开始使用这个经过精炼的数据集进行重新训练以提高模型性能。这个过程可以迭代多轮。一旦自我增强达到饱和状态,我们使用几个从经过自我增强的VLM中微调的专家VLM,具有特定领域的专业知识,通过面向任务的加标题和重新训练,进一步将专业知识融入通用VLM中。通过结合自我增强和专家增强的训练,我们引入了VILA^2(VILA增强-VILA),这是一个VLM系列,相对于先前技术在各种任务上持续提高准确性,并在MMMU排行榜上取得了新的最先进结果,超过了开源模型。
人类图像动画涉及从角色照片生成视频,允许用户控制并释放视频和电影制作的潜力。尽管最近的方法利用高质量的训练数据取得了令人印象深刻的结果,但这些数据集的不可访问性阻碍了公平和透明的基准测试。此外,这些方法优先考虑2D人体运动,忽视视频中摄像机运动的重要性,导致控制有限且视频生成不稳定。为了揭示训练数据的神秘,我们提出了HumanVid,这是专为人类图像动画量身定制的首个大规模高质量数据集,结合了精心制作的真实世界和合成数据。对于真实世界数据,我们从互联网上汇编了大量的免版权真实世界视频。通过精心设计的基于规则的过滤策略,我们确保包含高质量视频,最终形成了一个包含20K个1080P分辨率以人为中心的视频集合。人体和摄像机运动注释是通过2D姿势估计器和基于SLAM的方法完成的。对于合成数据,我们收集了2,300个免版权的3D角色资产,以增加现有的可用3D资产。值得注意的是,我们引入了基于规则的摄像机轨迹生成方法,使合成流水线能够融入多样化和精确的摄像机运动注释,这在真实世界数据中很少见。为验证HumanVid的有效性,我们建立了一个名为CamAnimate的基准模型,即可控制摄像机的人类动画,考虑了人体和摄像机运动作为条件。通过广泛的实验,我们证明在我们的HumanVid上进行的这种简单基准训练实现了控制人体姿势和摄像机运动的最先进性能,创造了一个新的基准。代码和数据将在https://github.com/zhenzhiwang/HumanVid/ 上公开提供。
尽管大型语言模型(LLMs)在各种应用中具有先进的智能能力,但它们仍然面临着巨大的计算和存储需求。知识蒸馏(KD)已经成为一种有效的策略,通过从性能优越的大型语言模型(即教师模型)转移知识,来提高较小的LLM(即学生模型)的性能。LLM蒸馏中的主流技术通常使用黑盒模型API生成高质量的预训练和对齐数据集,或者利用白盒蒸馏通过改变损失函数来更好地从教师LLM转移知识。然而,这些方法忽略了学生和教师LLMs之间跨领域的知识差异。这导致过度关注性能差距较小的领域,而对性能差距较大的领域关注不足,从而降低整体性能。在本文中,我们介绍了一种名为DDK的新型LLM蒸馏框架,根据教师和学生模型之间的领域性能差异,动态调整蒸馏数据集的组成,使蒸馏过程更加稳定和有效。广泛的评估表明,DDK显著提高了学生模型的性能,远远优于持续预训练基线和现有的知识蒸馏方法。
语言模型(LMs)的快速发展需要与各种用户价值观进行强健对齐。然而,当前的偏好优化方法通常无法捕捉用户意见的多样性,而是强化多数观点并边缘化少数派观点。我们引入了 PERSONA,这是一个可复制的测试平台,旨在评估和改进 LM 的多元对齐。我们从美国人口普查数据中程序生成多样化的用户资料,生成了1,586个具有不同人口统计和特殊属性的合成人物。然后,我们生成了一个大规模评估数据集,包含3,868个提示和从我们的合成人物中获得的317,200个反馈对。利用这个数据集,我们系统评估 LM 在扮演多样化用户角色方面的能力,通过人类评委验证,并建立了一个用于多元对齐方法的基准 PERSONA Bench,以及一个用于创建新的未来基准的广泛数据集。完整数据集和基准可在以下网址找到:https://www.synthlabs.ai/research/persona。
现代人工智能方法(如大型语言模型LLMs)最基本的能力是能够预测长序列中的下一个标记,这被称为“序列建模”。尽管Transformer模型是当前主流的序列建模方法,但其与序列长度相关的二次计算成本是一个重要的缺点。状态空间模型(SSMs)由于其线性解码效率和训练过程中的高并行性,提供了一种有前途的替代方案。然而,现有的SSMs通常依赖看似临时的线性递归设计。在这项工作中,我们通过在线学习的视角探索SSM设计,将SSMs概念化为特定在线学习问题的元模块。这种方法将SSM设计与制定精确的在线学习目标联系起来,状态转移规则是从优化这些目标中得出的。基于这一见解,我们提出了一种基于隐式更新的新型深度SSM架构,用于优化在线回归目标。我们的实验结果表明,我们的模型在标准序列建模基准和语言建模任务中胜过了最先进的SSMs,包括Mamba模型。
我们提出了稳定视频4D(SV4D),这是一个用于多帧和多视角一致的动态3D内容生成的潜在视频扩散模型。与先前依赖于分别训练的视频生成模型和新视角合成的方法不同,我们设计了一个统一的扩散模型,用于生成动态3D对象的新视角视频。具体而言,给定一个单眼参考视频,SV4D为每个视频帧生成在时间上一致的新视角。然后,我们使用生成的新视角视频来高效优化一个隐式的4D表示(动态NeRF),而无需使用大多数先前作品中使用的繁琐的基于SDS的优化。为了训练我们的统一新视角视频生成模型,我们从现有的Objaverse数据集中整理了一个动态3D对象数据集。对多个数据集和用户研究的广泛实验结果表明,与先前作品相比,SV4D在新视角视频合成和4D生成方面表现出卓越的性能。
我们能否赋予视觉动作机器人泛化能力,使其能够在各种开放式场景中运作?在本文中,我们提出了Maniwhere,这是一个专为视觉强化学习定制的通用框架,使训练过的机器人策略能够在多种视觉干扰类型的组合中实现泛化。具体来说,我们引入了一种融合了空间变换网络(STN)模块的多视图表示学习方法,以捕获不同视角之间的共享语义信息和对应关系。此外,我们采用基于课程的随机化和增强方法来稳定强化学习训练过程,并增强视觉泛化能力。为了展示Maniwhere的有效性,我们精心设计了8个任务,涵盖了复杂物体、双手操作和灵巧手部操作任务,展示了Maniwhere在3个硬件平台上强大的视觉泛化和从仿真到真实世界的迁移能力。我们的实验表明,Maniwhere明显优于现有的最先进方法。视频请访问https://gemcollector.github.io/maniwhere/。
不同用户对相同提示生成的图像有不同的偏好。这导致了个性化图像生成,涉及创建与个体视觉偏好一致的图像。然而,当前的生成模型是不具个性化的,因为它们被调整为生成吸引广泛受众的输出。将它们用于生成与个别用户一致的图像依赖于用户通过迭代手动提示工程来调整,这种方式低效且不理想。我们提出通过首先在一次过程中捕获用户的通用偏好来个性化图像生成过程,邀请他们评论一小部分图像,并解释他们喜欢或不喜欢每个图像的原因。根据这些评论,我们利用大型语言模型推断用户的结构化喜欢和不喜欢的视觉属性,即他们的视觉偏好。这些属性用于引导文本到图像模型生成朝向个别用户视觉偏好调整的图像。通过一系列用户研究和大型语言模型引导的评估,我们证明了所提出的方法导致生成物与个别用户的视觉偏好良好一致。
为了提高大型语言模型训练和推断的计算效率,机器学习加速硬件引入了诸如float8之类的低精度格式。然而,由于需要复杂且有时脆弱的技术来匹配更高精度的训练准确性,这些格式在机器学习社区中的采用速度较慢。在这项工作中,我们提出了Scalify,一种端到端的规模传播范式,用于计算图,对现有的张量缩放方法进行泛化和形式化。实验结果表明,Scalify支持开箱即用的float8矩阵乘法和梯度表示,以及float16优化器状态存储。我们基于JAX的Scalify实现已在https://github.com/graphcore-research/jax-scalify上开源。
许多具有挑战性的任务,如管理交通系统、电力网络或供应链,涉及复杂的决策过程,必须平衡多个相互冲突的目标,并协调各个独立决策者(DMs)的行动。一个形式化和解决这类任务的视角是多目标多智能体强化学习(MOMARL)。MOMARL将强化学习(RL)扩展到需要考虑多个目标的多个智能体的问题中。在强化学习研究中,基准测试对于促进进展、评估和可重现性至关重要。基准测试的重要性得到了多个基准框架的存在所强调,这些框架针对各种RL范式进行了开发,包括单智能体RL(例如Gymnasium)、多智能体RL(例如PettingZoo)和单智能体多目标RL(例如MO-Gymnasium)。为了支持MOMARL领域的发展,我们介绍了MOMAland,这是第一个为多目标多智能体强化学习提供标准化环境的集合。MOMAland满足了这一新兴领域对全面基准测试的需求,提供了超过10个不同的环境,这些环境在智能体数量、状态表示、奖励结构和效用考虑方面各不相同。为了为未来研究提供强有力的基准线,MOMAland还包括了能够在这种设置中学习策略的算法。
近年来,扩散生成的图像数量急剧增加,给当前的检测技术带来了独特挑战。虽然识别这些图像的任务属于二元分类,看似简单的类别,但采用“重建再比较”技术时的计算负荷是巨大的。这种方法被称为DIRE(扩散重建误差),不仅可以识别扩散生成的图像,还可以检测由GANs生成的图像,突显了该技术的广泛适用性。为了解决计算挑战并提高效率,我们提出提炼扩散模型中嵌入的知识,开发快速深度伪造检测模型。我们的方法旨在创建一个小型、快速、廉价且轻量级的扩散合成深度伪造检测器,保持强大性能的同时显著降低运行需求。根据我们的实验结果表明,我们的推理速度比现有的DIRE框架快3.2倍。这一进展不仅增强了在实际环境中部署这些系统的实用性,还为未来旨在利用扩散模型知识的研究努力铺平了道路。
自动驾驶行业通常雇佣专业艺术家来构建精美的3D汽车。然而,制作大规模数字资产成本高昂。由于已经有许多包含大量汽车图像的数据集可用,我们专注于从这些数据集中重建高质量的3D汽车模型。然而,这些数据集只包含前进场景中汽车的一侧。我们尝试利用现有的生成模型提供更多监督信息,但由于它们是在合成数据集而非特定于汽车的数据集上训练的,因此在汽车方面很难泛化。此外,处理野外图像时,由于相机姿态估计存在较大误差,重建的3D汽车纹理会出现错位。这些限制使先前的方法难以重建完整的3D汽车。为了解决这些问题,我们提出了一种名为DreamCar的新方法,可以根据少量甚至单个图像重建高质量的3D汽车。为了泛化生成模型,我们收集了一个名为Car360的汽车数据集,其中包含超过5,600辆车辆。借助这个数据集,我们使生成模型对汽车更加健壮。我们利用这个特定于汽车的生成先验来通过得分蒸馏采样指导其重建。为了进一步补充监督信息,我们利用汽车的几何和外观对称性。最后,我们提出了一种姿态优化方法,纠正姿态以解决纹理错位问题。大量实验证明,我们的方法在重建高质量的3D汽车方面明显优于现有方法。我们的代码可在https://xiaobiaodu.github.io/dreamcar-project/找到。