每日精选AI研究论文及翻译
我们介绍InternLM-XComposer2,这是一种尖端的视觉语言模型,在自由形式文本-图像合成和理解方面表现出色。该模型超越传统的视觉语言理解,熟练地从各种输入中如轮廓、详细文本规范和参考图像中精心制作交错的文本-图像内容,实现高度可定制的内容创作。InternLM-XComposer2提出了一种部分LoRA(PLoRA)方法,将额外的LoRA参数专门应用于图像标记,以保留预训练语言知识的完整性,实现精确的视觉理解和具有文学才能的文本合成之间的平衡。实验结果表明,基于InternLM2-7B,InternLM-XComposer2在生成高质量长文本多模态内容方面优越,并在各种基准测试中表现出色,不仅明显优于现有的多模态模型,而且在某些评估中与GPT-4V和Gemini Pro相匹敌甚至超越。这突显了它在多模态理解领域的卓越能力。InternLM-XComposer2系列模型的7B参数版本可在以下网址公开获取:https://github.com/InternLM/InternLM-XComposer。
对于大型视觉-语言模型(LVLMs),扩展模型规模可以有效提高性能。然而,扩大模型参数会显著增加训练和推理成本,因为在计算中每个标记都会激活所有模型参数。在这项工作中,我们提出了一种新颖的LVLMs训练策略MoE-tuning,可以构建一个稀疏模型,具有惊人数量的参数但恒定的计算成本,并有效解决了通常与多模态学习和模型稀疏性相关的性能下降问题。此外,我们提出了MoE-LLaVA框架,这是一个基于MoE的稀疏LVLM架构。该框架在部署过程中通过路由器唯一激活前k个专家,使其余专家保持非活动状态。我们的广泛实验突出了MoE-LLaVA在视觉理解方面的出色能力,以及减少模型输出中幻觉的潜力。值得注意的是,仅通过30亿个稀疏激活参数,MoE-LLaVA在各种视觉理解数据集上展现出与LLaVA-1.5-7B相媲美的性能,甚至在物体幻觉基准测试中超越了LLaVA-1.5-13B。通过MoE-LLaVA,我们旨在为稀疏LVLMs建立一个基准,并为未来开发更高效、更有效的多模态学习系统提供宝贵见解。代码已发布在https://github.com/PKU-YuanGroup/MoE-LLaVA。
大型语言模型是在网络上大规模抓取的数据上进行训练的,这些数据通常是非结构化的、嘈杂的,并且措辞不佳。当前的扩展规律表明,从这些数据中学习需要大量的计算资源和数据,随着被训练模型的规模增加而增长。由于预训练涉及巨大的计算成本和时间,并且网络上高质量数据的稀缺性日益临近,这变得不可行。在这项工作中,我们提出了Web Rephrase Augmented Pre-training(WRAP),它使用一个经过调整的通用指导模型,提示对网络文档进行改写,以特定风格,如“类似维基百科”或“问答格式”,共同对LLM进行预训练。首先,我们展示了在自然嘈杂的C4数据集上使用WRAP可以将预训练加速3倍。在相同的预训练计算预算下,它平均提高了Pile不同子集的困惑度超过10%,并且将零样本问题回答准确性在13个任务中提高了超过2%。其次,我们研究了改写风格对模型性能的影响,提供了有关训练数据组成如何影响LLM在OOD环境中性能的见解。我们的收益归因于改写的合成数据比仅有真实数据具有更高的效用,因为它(i)融入了紧密反映下游评估风格的风格多样性,以及(ii)比网络抓取数据具有更高的“质量”。
我们介绍了Motion-I2V,这是一个新颖的框架,用于一致且可控的图像到视频生成(I2V)。与直接学习复杂的图像到视频映射的先前方法不同,Motion-I2V将I2V分解为两个阶段,并引入了显式运动建模。在第一阶段,我们提出了基于扩散的运动场预测器,重点是推断参考图像像素的轨迹。在第二阶段,我们提出了运动增强的时间注意力,以增强视频潜在扩散模型中有限的一维时间注意力。该模块可以在第一阶段预测的轨迹指导下,有效地将参考图像的特征传播到合成帧。与现有方法相比,Motion-I2V即使在存在大运动和视角变化的情况下,也能生成更一致的视频。通过为第一阶段训练稀疏轨迹ControlNet,Motion-I2V可以支持用户通过稀疏轨迹和区域注释精确控制运动轨迹和运动区域。这比仅依赖文本指令具有更多的I2V过程可控性。此外,Motion-I2V的第二阶段自然支持零样本视频到视频翻译。定性和定量比较表明,Motion-I2V在一致且可控的图像到视频生成方面优于先前方法。
近年来,机器人强化学习(RL)领域取得了显著进展,使得能够处理复杂图像观测、在真实世界中训练,并整合辅助数据(如演示和先前经验)的方法成为可能。然而,尽管取得这些进展,机器人RL仍然难以使用。从业者们普遍认为,这些算法的具体实现细节通常与算法选择一样重要(甚至更重要)以获得良好性能。我们认为机器人RL广泛应用和进一步发展的一个重要挑战是这些方法的相对难以获取性。为了解决这一挑战,我们开发了一个精心实现的库,其中包含一种样本高效的离策略深度RL方法,以及用于计算奖励和重置环境的方法,一个用于广泛采用的机器人的高质量控制器,以及一些具有挑战性的示例任务。我们将这个库提供给社区作为资源,描述其设计选择,并呈现实验结果。令人惊讶的是,我们发现我们的实现可以实现非常高效的学习,在平均每个策略训练25到50分钟的情况下,获得了PCB板组装、电缆布线和物体重新定位策略,相较于文献中类似任务的最新结果有所改进。这些策略实现了完美或接近完美的成功率,即使在扰动下也具有极高的稳健性,并表现出自发的恢复和校正行为。我们希望这些有希望的结果和我们高质量的开源实现将为机器人领域提供一个工具,促进机器人RL的进一步发展。我们的代码、文档和视频可以在https://serl-robot.github.io/找到。
从语音合成3D面部动画引起了相当大的关注。由于高质量的4D面部数据和充分注释的多模态标签稀缺,先前的方法通常受限于有限的逼真度和缺乏灵活的条件。我们通过三部曲来解决这一挑战。首先,我们引入广义神经参数面部资产(GNPFA),这是一种高效的变分自动编码器,将面部几何和图像映射到高度广义表达潜空间,解耦表情和身份。然后,我们利用GNPFA从大量视频中提取高质量的表情和准确的头部姿势。这呈现了M2F-D数据集,这是一个大型、多样化且扫描级的共语3D面部动画数据集,具有良好注释的情感和风格标签。最后,我们提出Media2Face,这是一个扩散模型,位于GNPFA潜空间中,用于共语面部动画生成,接受来自音频、文本和图像的丰富多模态指导。大量实验证明,我们的模型不仅在面部动画合成方面实现了高保真度,还拓宽了3D面部动画中的表现力和风格适应性范围。
基于多模态大型语言模型(MLLM)的移动设备代理正成为一种流行的应用。本文介绍了Mobile-Agent,这是一个自主的多模态移动设备代理。Mobile-Agent首先利用视觉感知工具准确识别和定位应用程序前端界面中的视觉和文本元素。基于感知到的视觉上下文,它自主规划和分解复杂的操作任务,并逐步通过操作导航移动应用程序。与依赖应用程序的XML文件或移动系统元数据的先前解决方案不同,Mobile-Agent以视觉为中心的方式允许在各种移动操作环境中具有更大的适应性,从而消除了对特定系统定制的必要性。为了评估Mobile-Agent的性能,我们引入了Mobile-Eval,这是一个用于评估移动设备操作的基准。基于Mobile-Eval,我们对Mobile-Agent进行了全面评估。实验结果表明,Mobile-Agent实现了显著的准确性和完成率。即使面对具有挑战性的指令,如多应用程序操作,Mobile-Agent仍然能够完成要求。代码和模型将在https://github.com/X-PLUG/MobileAgent上开源。
最近在大型预训练文本到图像模型方面取得的进展展示了前所未有的高质量以人为中心的生成能力,然而,定制人脸身份仍然是一个棘手的问题。现有方法无法确保稳定的身份保留和灵活的可编辑性,即使在训练过程中为每个主题提供了多张图像。在这项工作中,我们提出了StableIdentity,它允许仅使用一张人脸图像进行身份一致的重新语境化。更具体地说,我们使用一个带有身份先验的人脸编码器来编码输入的人脸,然后将人脸表示投射到一个可编辑先验空间中,该空间是由名人姓名构建的。通过结合身份先验和可编辑性先验,学习到的身份可以在各种上下文中注入。此外,我们设计了一个遮罩的两阶段扩散损失,以增强输入人脸的像素级感知,并保持生成的多样性。大量实验证明我们的方法优于先前的定制方法。此外,学习到的身份可以灵活地与诸如ControlNet之类的现成模块结合使用。值得注意的是,据我们所知,我们是第一个在视频/三维生成中直接注入从单个图像学习到的身份而无需微调的研究。我们相信,所提出的StableIdentity是统一图像、视频和三维定制生成模型的重要一步。
随着大规模文本到图像生成模型在文本到图像生成领域取得显著进展,许多微调方法已被提出。然而,这些模型通常在处理新颖对象时遇到困难,特别是在一次性场景下。我们提出的方法旨在以面向对象的方式解决泛化能力和保真度方面的挑战,仅利用单个输入图像和特定对象区域。为了提高泛化能力并减轻过拟合,在我们的范式中,基于对象的外观和类别初始化了一个原型嵌入,然后对扩散模型进行微调。在微调过程中,我们提出了一种类别特征正则化方法,以保留对象类别的先验知识。为了进一步提高保真度,我们引入了特定对象的损失,也可用于植入多个对象。总体而言,我们提出的面向对象的新对象植入方法可以与现有概念以及高保真度和泛化性能无缝集成。我们的方法优于几种现有作品。代码将会发布。
尽管文本到图像模型在生成高质量图像方面取得了显著进展,但这些方法仍然难以确保在复杂文本提示的情况下对图像的可控性,特别是在保留对象属性和关系方面。在本文中,我们提出了CompAgent,这是一种无需训练的组合文本到图像生成方法,其核心是一个大型语言模型(LLM)代理。CompAgent的基本思想建立在一种分而治之的方法论之上。给定一个包含多个概念(包括对象、属性和关系)的复杂文本提示,LLM代理首先对其进行分解,这涉及提取单个对象、它们相关的属性以及预测连贯的场景布局。然后可以独立处理这些单个对象。随后,代理通过分析文本进行推理,规划并使用工具来组合这些孤立的对象。最后,我们的代理还融入了验证和人类反馈机制,以进一步纠正潜在的属性错误并完善生成的图像。在LLM代理的指导下,我们提出了一种无需调整的多概念定制模型和一种布局到图像生成模型作为概念组合的工具,以及一种局部图像编辑方法作为与代理进行交互以进行验证的工具。在这些工具中,场景布局控制着图像生成过程,以防止多个对象之间的混淆。大量实验证明了我们的组合文本到图像生成方法的优越性:CompAgent在T2I-CompBench上取得了超过10%的改进,这是一个开放世界组合T2I生成的综合基准。对各种相关任务的扩展也展示了我们的CompAgent对潜在应用的灵活性。
现有的视觉-语言模型在各种视觉领域和任务上表现出强大的泛化能力。然而,这些模型主要以零样本识别的方式在封闭集中进行操作,因此在设计上难以处理开放域视觉概念。最近出现了一些微调方法,比如提示学习,不仅研究了在分布(ID)和非分布(OOD)样本之间的区分,而且在ID和OOD准确性方面也显示出了一些改进。在本文中,我们首先证明了视觉-语言模型在经过足够长时间的微调但缺乏适当的正则化时,往往会过拟合给定数据集中已知类别,从而在未知类别上性能下降。然后,我们提出了一种新颖的方法 OGEN 来解决这一问题,重点是改善微调模型的OOD泛化能力。具体来说,引入了一种类别条件特征生成器,可以仅使用任何未知类别的类别名称来合成OOD特征。这些合成特征将提供有关未知类别的有用知识,并在联合优化时帮助规范ID和OOD数据之间的决策边界。同样重要的是我们的自适应自蒸馏机制,用于在联合优化过程中规范我们的特征生成模型,即自适应地在模型状态之间传递知识,以进一步防止过拟合。实验证实,我们的方法在不同设置下都取得了令人信服的OOD泛化性能提升。