每日精选AI研究论文及翻译
Transformer架构有两个主要的非嵌入式组件:注意力机制和前馈神经网络(FFN)。注意力机制捕捉单词之间的相互依赖关系,而FFN则非线性地独立地转换每个输入标记。在这项工作中,我们探讨了FFN的作用,并发现尽管它占据模型参数的相当大比例,但它是高度冗余的。具体来说,我们能够通过移除解码器层上的FFN并在编码器之间共享单个FFN,大幅减少参数数量,仅在精度上略微下降。最后,我们通过增加共享FFN的隐藏维度,将这种架构缩放回原始大小,实现了在精度和延迟方面相对于原始Transformer Big的实质性增益。
先前针对人类生成的可动画3D感知生成对抗网络主要集中在人类头部或全身。然而,在现实生活中,仅有头部的视频相对不常见,而全身生成通常无法控制面部表情,并且在生成高质量结果方面仍然存在挑战。为了实用的视频化身,我们提出了一种可动画3D感知生成对抗网络,它生成具有可控面部表情、头部姿势和肩部运动的肖像图像。这是一个在未结构化2D图像集合上训练的生成模型,而无需使用3D或视频数据。针对新任务,我们基于生成辐射流形表示法构建我们的方法,并配备了可学习的面部和头肩部变形。提出了双摄像头渲染和对抗学习方案,以提高生成面部的质量,这对肖像图像至关重要。开发了一个姿势变形处理网络,用于为长发等具有挑战性区域生成合理的变形。实验表明,我们的方法在未结构化2D图像上训练后,能够生成多样且高质量的具有所需控制不同属性的3D肖像。
大型语言模型(LLMs)最近展示了出色的能力,能够理解人类意图,进行推理,并设计类似规划的行为。为了进一步释放LLMs的力量以完成复杂任务,越来越多的趋势是构建代理框架,为LLMs(如ChatGPT)配备工具使用能力,以连接大量外部API。在这项工作中,我们介绍了ModelScope-Agent,这是一个通用且可定制的代理框架,用于实际应用,基于开源LLMs作为控制器。它提供了一个用户友好的系统库,具有可定制的引擎设计,支持在多个开源LLMs上进行模型训练,同时还能以统一的方式与模型API和常见API实现无缝集成。为了赋予LLMs工具使用能力,提出了一个全面的框架,涵盖了工具使用数据收集、工具检索、工具注册、内存控制、定制模型训练以及实际应用的评估。最后,我们展示了ModelScopeGPT,这是一个基于ModelScope-Agent框架的实际智能助手,能够连接开源LLMs与超过1000个公共AI模型以及ModelScope中的本地化社区知识。ModelScope-Agent库https://github.com/modelscope/modelscope-agent和在线演示https://modelscope.cn/studios/damo/ModelScopeGPT/summary 现已公开提供。
从照片中进行材料重建是3D内容创作民主化的关键组成部分。我们提议将这个不适定问题制定为受控合成问题,利用生成式深度网络的最新进展。我们提出了ControlMat方法,通过给定一张带有不受控照明的单张照片作为输入,将扩散模型调整为生成可信、可平铺、高分辨率的基于物理的数字材料。我们仔细分析了多通道输出的扩散模型的行为,调整采样过程以融合多尺度信息,并引入了滚动扩散,以实现平铺性和高分辨率输出的补丁扩散。我们的生成方法进一步允许探索各种可能对应于输入图像的材料,减轻未知照明条件的影响。我们展示了我们的方法优于最近的推断和潜空间优化方法,并仔细验证了我们的扩散过程设计选择。补充材料和额外细节可在以下网址获取:https://gvecchio.com/controlmat/。
通过人类反馈的强化学习(RLHF)已经通过将模型与人类偏好相一致,彻底改变了语言建模。然而,RL 阶段的 Proximal Policy Optimization(PPO)需要超过 Supervised Fine-Tuning(SFT)3 倍的内存,这使得大多数从业者难以使用。为了解决这个问题,我们对 PPO 的内存使用、性能和训练时间进行了全面分析,提出了一些节省内存的技术。我们首先将 SFT 和 Reward 模型整合,然后在训练过程中动态地关闭 LoRA,从而引入了 Hydra-RLHF。我们的实验表明:1. 在 PPO 中使用 LoRA 可以将其内存使用量降低到小于 SFT 的水平,同时提高了与四个公共基准的一致性;2. Hydra-PPO 可以将 LoRA-PPO 每个样本的延迟降低高达 65%,同时保持其性能。我们的结果表明,Hydra-PPO 是一个简单且有前景的解决方案,可以更广泛地推广 RLHF 的使用。
语音传达的信息比文本更多,因为同一个词可以用不同的声音发音来传达多样化的信息。与依赖语音提示(参考语音)进行声音变化的传统文本转语音(TTS)方法相比,使用文本提示(描述)更加用户友好,因为语音提示可能很难找到,或者根本不存在。基于文本提示的TTS方法面临两个挑战:1)一对多问题,即文本提示无法描述声音变化的所有细节;2)文本提示数据集的有限可用性,需要供应商和大量数据标记成本来为语音编写文本提示。在这项工作中,我们介绍了PromptTTS 2来解决这些挑战,通过一个变化网络提供文本提示无法捕捉的声音变化信息,以及一个提示生成流程来利用大型语言模型(LLM)来构建高质量的文本提示。具体而言,变化网络根据文本提示的表示预测从参考语音中提取的表示(其中包含有关声音的完整信息)。对于提示生成流程,它使用语音理解模型从语音中识别声音属性(例如性别、速度),并利用大型语言模型根据识别结果生成文本提示。在大规模(44K小时)语音数据集上的实验表明,与先前的工作相比,PromptTTS 2生成的声音与文本提示更一致,并支持多样化声音变化的抽样,从而为用户提供更多的声音生成选择。此外,提示生成流程生成高质量的提示,消除了大量标记成本。PromptTTS 2的演示页面可在线访问https://speechresearch.github.io/prompttts2。
视频外延旨在充分完善视频帧边缘的缺失区域。与图像外延相比,视频外延面临额外挑战,因为模型应保持填充区域的时间一致性。本文介绍了一种用于视频外延的蒙版3D扩散模型。我们使用蒙版建模技术来训练3D扩散模型。这使我们能够使用多个引导帧来连接多个视频剪辑推断的结果,从而确保时间一致性并减少相邻帧之间的抖动。同时,我们提取视频的全局帧作为提示,并通过交叉注意力引导模型获取当前视频剪辑以外的信息。我们还引入了一种混合粗到细的推断流程,以减轻伪影积累问题。现有的粗到细流程仅使用填充策略,这会因稀疏帧的时间间隔过大而导致降级。我们的流程通过蒙版建模的双向学习获益,因此在生成稀疏帧时可以采用填充和插值的混合策略。实验证明,我们的方法在视频外延任务中取得了最先进的结果。更多结果请访问我们的网站https://fanfanda.github.io/M3DDM/。
本文提出了一种无需 LoRA 的风格化图像生成方法,该方法以文本提示和风格参考图像作为输入,在一次传递中生成输出图像。与现有方法依赖为每种风格训练单独 LoRA 的方法不同,我们的方法可以通过统一模型适应各种风格。然而,这带来了两个挑战:1)提示失去了对生成内容的可控性,2)输出图像继承了风格参考图像的语义和风格特征,损害了其内容的忠实度。为了解决这些挑战,我们引入了 StyleAdapter,这是一个由两个组件组成的模型:双路径交叉注意力模块(TPCA)和三种解耦策略。这些组件使我们的模型能够分别处理提示和风格参考特征,并减少风格参考中语义和风格信息之间的强耦合。StyleAdapter 能够在一次传递中生成与提示内容匹配并采用参考风格(甚至是未见过的风格)的高质量图像,比先前的方法更灵活和高效。实验证明了我们的方法优于先前的工作。
我们考虑了视觉消歧任务,即确定一对视觉上相似的图像是否描绘了相同或不同的3D表面(例如,对称建筑的同侧或异侧)。虚假图像匹配指的是两幅图像观察到不同但在视觉上相似的3D表面,这对人类来说可能很难区分,也会导致3D重建算法产生错误结果。我们提出了一种基于学习的视觉消歧方法,将其构建为对图像对的二元分类任务。为此,我们引入了一个针对这一问题的新数据集“Doppelgangers”,其中包括具有地面真实标签的相似结构图像对。我们还设计了一个网络架构,以局部关键点和匹配的空间分布作为输入,从而更好地推理局部和全局线索。我们的评估表明,我们的方法可以在困难情况下区分虚假匹配,并可集成到SfM流程中,以生成正确的、消歧的3D重建结果。请查看我们的项目页面获取代码、数据集和更多结果:http://doppelgangers-3d.github.io/。
最近的架构发展使得循环神经网络(RNNs)能够在某些序列建模任务上达到甚至超过Transformer的性能。这些现代RNNs具有一个显著的设计模式:由前馈路径连接的线性循环层,带有乘法门控。在这里,我们展示了装备了这两个设计元素的RNNs如何精确实现(线性)自注意力,这是Transformer的主要构建模块。通过逆向工程一组经过训练的RNNs,我们发现在实践中梯度下降发现了我们的构建。特别是,我们研究了训练用于解决简单上下文学习任务的RNNs,在这些任务上Transformer以优异表现著称,并发现梯度下降赋予我们的RNNs与Transformer使用的基于注意力的上下文学习算法相同的能力。我们的发现突显了神经网络中乘法交互的重要性,并暗示某些RNNs可能在幕后意外地实现了注意力机制。
我们提出了对比特征遮罩视觉Transformer(CFM-ViT)- 一种图像文本预训练方法,实现了针对开放词汇目标检测(OVD)的图像和区域级表示的同时学习。我们的方法将掩码自编码器(MAE)目标与对比学习目标相结合,以改进定位任务的表示。与标准的MAE不同,我们在联合图像文本嵌入空间中执行重建,而不是像传统的MAE方法那样在像素空间中执行,这使模型更好地学习区域级语义。此外,我们引入了位置嵌入丢失(PED)来解决图像文本预训练和检测微调之间的尺度变化,通过在预训练期间随机丢弃位置嵌入来提高检测性能,并使得可以将冻结的ViT骨干作为区域分类器,防止在检测微调期间遗忘开放词汇知识。在LVIS开放词汇检测基准上,CFM-ViT实现了33.9的APr,超过了最佳方法7.6个点,并实现了更好的零样本检测转移。最后,CFM-ViT获得了强大的图像级表示,在零样本图像文本检索基准的12个指标中,有8个超越了现有技术水平。
本文介绍了一种学习解决连续约束满足问题(CCSP)的方法,适用于机器人推理和规划。先前的方法主要依赖手工设计或学习生成器来处理特定约束类型,然后在违反其他约束时拒绝数值分配。相比之下,我们的模型,即组合扩散连续约束求解器(Diffusion-CCSP),通过将CCSP表示为因子图,并结合训练用于对各个约束类型进行采样的扩散模型的能量,来推导全局解。Diffusion-CCSP对已知约束的新组合表现出强大的泛化能力,并可集成到任务和运动规划器中,设计包含离散和连续参数动作的长视程计划。项目网站:https://diffusion-ccsp.github.io/
本文讨论了在保留视频运动的同时修改视频外观的问题。提出了一种名为MagicProp的新颖框架,将视频编辑过程分解为两个阶段:外观编辑和运动感知外观传播。在第一阶段,MagicProp从输入视频中选择单帧并应用图像编辑技术来修改帧的内容和/或风格。这些技术的灵活性使得可以编辑帧内的任意区域。在第二阶段,MagicProp使用编辑后的帧作为外观参考,并利用自回归渲染方法生成其余帧。为实现这一目标,开发了基于扩散的条件生成模型PropDPM,通过在参考外观、目标运动及其先前外观的条件下合成目标帧。自回归编辑方法确保了生成视频中的时间一致性。总体而言,MagicProp结合了图像编辑技术的灵活性和自回归建模的出色时间一致性,实现了对输入视频中任意区域的对象类型和美学风格的灵活编辑,同时保持帧间良好的时间一致性。在各种视频编辑场景中进行的大量实验证明了MagicProp的有效性。
逆向设计指的是优化目标函数的输入,以实现目标结果的问题。对于许多现实世界的工程问题,目标函数采用模拟器的形式,用于预测系统状态随时间的演变,设计挑战在于优化导致目标结果的初始条件。最近在学习模拟方面的发展表明,图神经网络(GNNs)可用于准确、高效、可微估计模拟器动态,并支持使用基于梯度或基于采样的优化程序进行高质量设计优化。然而,从头开始优化设计需要进行许多昂贵的模型查询,这些过程在非凸或高维问题上通常表现出基本失败。在这项工作中,我们展示了如何利用去噪扩散模型(DDMs)有效解决逆向设计问题,并提出了一种粒子采样算法以进一步提高其效率。我们在多个流体动力学设计挑战上进行实验,发现我们的方法相比标准技术显著减少了对模拟器的调用次数。
许多现实世界的操作任务由一系列彼此显著不同的子任务组成。这种长时程、复杂任务凸显了灵巧手的潜力,它具有适应性和多功能性,能够在不需要重新抓取或外部工具的情况下无缝地在不同功能模式之间过渡。然而,由于灵巧手的高维动作空间和长时程任务的复杂组合动力学,挑战也随之而来。我们提出了顺序灵巧(Sequential Dexterity),这是一个基于强化学习(RL)的通用系统,用于链接多个灵巧策略以实现长时程任务目标。该系统的核心是一个逐步优化子策略以增强链接成功率的过渡可行性函数,同时还实现了自主策略切换以从失败中恢复并绕过冗余阶段。尽管仅在模拟环境中训练了几个任务对象,我们的系统展示了对新颖物体形状的泛化能力,并能够零-shot转移到配备灵巧手的真实世界机器人。更多详细信息和视频结果请访问https://sequential-dexterity.github.io。