每日精选AI研究论文及翻译
Amphion是一个用于音频、音乐和语音生成的工具包。它的目的是支持可重现的研究,并帮助初级研究人员和工程师开始从事音频、音乐和语音生成研究和开发。Amphion提供了一个独特的功能:经典模型或架构的可视化。我们认为这些可视化对于希望更好地理解模型的初级研究人员和工程师是有益的。Amphion的北极星目标是提供一个研究将任何输入转换为通用音频的平台。Amphion旨在支持个体生成任务。除了特定的生成任务,Amphion还包括几种声码器和评估指标。声码器是产生高质量音频信号的重要模块,而评估指标对于确保生成任务中的一致指标至关重要。在本文中,我们提供了Amphion的高层概述。
回答复杂的自然语言问题通常需要多步推理和整合外部信息。一些系统已经将知识检索与大型语言模型(LLM)相结合,以回答此类问题。然而,这些系统存在各种失败情况,我们无法直接端对端地训练它们来修复这些失败,因为与外部知识的交互是不可微分的。为了解决这些不足,我们定义了一种具有推理和对外部知识采取行动能力的ReAct风格LLM代理。我们通过一种类似ReST的方法进一步完善代理,该方法通过在先前轨迹上进行迭代训练,采用增量批强化学习与AI反馈进行持续自我改进和自我蒸馏。从一个提示的大型模型开始,在算法仅两次迭代之后,我们就能产生一个经过精细调整的小型模型,该模型在具有两个数量级更少参数的具有挑战性的组合式问答基准测试上实现了可比较的性能。
扩散模型在各种下游生成任务中取得了显著成功,但在重要且具有挑战性的表达式说话头像生成领域仍未得到充分探索。在这项工作中,我们提出了一个名为DreamTalk 的框架来填补这一空白,通过精心设计来释放扩散模型在生成富有表现力的说话头像方面的潜力。具体而言,DreamTalk 包括三个关键组件:一个去噪网络,一个风格感知的唇部专家和一个风格预测器。基于扩散的去噪网络能够稳定地合成出多样表情下的高质量音频驱动面部动作。为增强唇部动作的表现力和准确性,我们引入了一个风格感知的唇部专家,能够在引导唇同步的同时注意说话风格。为了消除对表情参考视频或文本的需求,额外使用了基于扩散的风格预测器,直接从音频中预测目标表情。通过这种方式,DreamTalk 能够利用强大的扩散模型有效生成富有表现力的面部,并减少对昂贵风格参考的依赖。实验结果表明,DreamTalk 能够生成具有多样说话风格的逼真说话头像,并实现准确的唇部动作,超越现有的最先进方法。
分割任意物体模型(SAM)解决了两个实际且具有挑战性的分割任务:分割任意物体(SegAny),利用特定点预测感兴趣单个对象的蒙版,以及分割所有物体(SegEvery),预测图像上所有物体的蒙版。SegAny在SAM中变慢的原因是其庞大的图像编码器,MobileSAM通过解耦合知识蒸馏来解决了这个问题。然而,SAM中SegEvery的效率瓶颈在于其蒙版解码器,因为它需要首先使用冗余的网格搜索提示生成大量蒙版,然后执行过滤以获得最终有效的蒙版。我们提出通过直接生成仅具有有效提示的最终蒙版来提高其效率,这些提示可以通过对象发现获得。我们提出的方法不仅有助于将蒙版解码器的总时间至少减少16倍,而且实现了卓越的性能。具体而言,我们的方法在LVIS数据集上零样本对象提议的蒙版AR@K指标上平均性能提升了3.6%(42.5%对38.9%)。定性结果显示,我们的方法生成了细粒度蒙版,同时避免了对物体进行过度分割。这个旨在比原始SAM更快的SegEvery的项目被称为MobileSAMv2,以区别于旨在更快的SegAny的MobileSAM。此外,我们证明我们的新提示采样也与MobileSAM中的蒸馏图像编码器兼容,为高效的SegAny和SegEvery提供了统一框架。代码可在与MobileSAM相同的链接处找到。MobileSAM项目链接为https://github.com/ChaoningZhang/MobileSAM。
本文的动机并非在注意力机制内寻求创新。相反,它专注于克服点云处理背景下现有精度和效率之间的权衡,利用规模的力量。受到3D大规模表示学习最新进展的启发,我们意识到模型性能更受规模而非复杂设计的影响。因此,我们提出了Point Transformer V3(PTv3),它将简单性和效率置于优先位置,而不是准确性,某些机制在扩展后对整体性能的影响较小,例如用具有特定模式的点云序列化邻居映射替换精确的邻居搜索。这一原则实现了显著的扩展,将感受野从16扩展到1024个点,同时保持高效(与其前身PTv2相比,处理速度提高了3倍,内存效率提高了10倍)。PTv3在涵盖室内外场景的20多个下游任务中取得了最先进的结果。通过多数据集联合训练进一步增强,PTv3将这些结果推向更高水平。
扩散模型中的关键组件之一是用于噪声预测的UNet。虽然有几项研究探讨了UNet解码器的基本特性,但其编码器在很大程度上仍未被探索。在这项工作中,我们进行了对UNet编码器的首次全面研究。我们通过实证分析编码器特征,并就其在推断过程中的变化提供了重要见解。特别是,我们发现编码器特征变化平缓,而解码器特征在不同时间步之间存在显著变化。这一发现启发我们在某些相邻时间步骤中省略编码器,并循环重复利用先前时间步骤中的编码器特征供解码器使用。基于这一观察,我们引入了一种简单而有效的编码器传播方案,以加速各种任务的扩散采样。通过利用我们的传播方案,我们能够在某些相邻时间步骤中并行执行解码器。此外,我们引入了一种先验噪声注入方法,以改善生成图像中的纹理细节。除了标准的文本到图像任务外,我们还在其他任务上验证了我们的方法:文本到视频、个性化生成和参考引导生成。在不使用任何知识蒸馏技术的情况下,我们的方法将稳定扩散(SD)和DeepFloyd-IF模型的采样速度分别提高了41%和24%,同时保持了高质量的生成性能。我们的代码可在https://github.com/hutaiHang/Faster-Diffusion{FasterDiffusion}找到。
基于Transformer的大型语言模型(LLMs)通常会对文本输入长度施加限制,以确保生成流畅且相关的回复。这种约束限制了它们在涉及长文本的场景中的适用性。我们提出了一种新颖的语义压缩方法,可以使模型泛化到长文本的情况,而不会带来显著的计算成本或需要微调。我们提出的框架从信息论中的源编码中汲取灵感,利用预训练模型来减少长输入的语义冗余,然后将其传递给LLMs用于下游任务。实验结果表明,我们的方法有效地扩展了LLMs的上下文窗口,涵盖了一系列任务,包括问答、摘要、少样本学习和信息检索。此外,所提出的语义压缩方法在减少相关计算开销的同时,在文本生成中表现出一致的流畅性。
我们展示现有的大型语言模型(LLM)激活上的无监督方法并未发现知识,而似乎是发现了激活中最突出的特征。无监督知识引发背后的理念是,知识满足一致性结构,可用于发现知识。我们首先在理论上证明,任意特征(不仅仅是知识)都满足特定领先的无监督知识引发方法的一致性结构,即对比一致性搜索(Burns等人 - arXiv:2212.03827)。然后,我们展示了一系列实验,展示了无监督方法在某些设置下导致分类器无法预测知识,而是预测了另一个突出的特征。我们得出结论,现有用于发现潜在知识的无监督方法是不足够的,并为评估未来知识引发方法提供了理智检查。从概念上讲,我们假设这里探讨的识别问题,例如区分模型知识和模拟角色知识,将持续存在于未来的无监督方法中。
得分蒸馏采样(Score Distillation Sampling,SDS)在条件3D内容生成方面表现出卓越性能。然而,对SDS公式的全面理解仍然不足,阻碍了3D生成的发展。在本研究中,我们将SDS解释为三个功能组件的组合:模式解耦、模式寻找和减少方差项,并分析每个组件的特性。我们展示了由于监督项固有缺陷导致的过度平滑和颜色饱和等问题,并揭示了SDS引入的减少方差项是次优的。此外,我们阐明了采用大型无分类器引导(Classifier-Free Guidance,CFG)尺度进行3D生成的原因。基于分析,我们提出了一种简单而有效的方法,称为稳定得分蒸馏(Stable Score Distillation,SSD),可以策略性地组织每个项以实现高质量的3D生成。大量实验证实了我们方法的有效性,展示了其能够生成高保真度的3D内容,即使在最具挑战性的NeRF表示条件下,也不会出现过度平滑和过度饱和等问题。
最近,神经辐射场(Neural Radiance Field,NeRF)及其变种已成为新视角合成和3D场景重建的成功方法。然而,大多数当前的NeRF模型要么通过使用大模型尺寸实现高准确性,要么通过牺牲准确性来实现高内存效率。这限制了任何单个模型的适用范围,因为高准确性模型可能无法适应低内存设备,而内存高效模型可能无法满足高质量要求。为此,我们提出了SlimmeRF,这是一种模型,通过精简,允许在模型尺寸和准确性之间进行即时的测试时间权衡,从而使模型同时适用于具有不同计算预算的场景。我们通过一种新提出的算法,名为张量秩增加(Tensorial Rank Incrementation,TRaIn),在训练过程中逐渐增加模型张量表示的秩来实现这一目标。我们还观察到,我们的模型在稀疏视图场景中允许更有效的权衡,有时甚至在精简后实现更高的准确性。我们将这归因于错误信息(如浮点值)往往存储在对应于较高秩的组件中。我们的实现可在https://github.com/Shiran-Yuan/SlimmeRF 上找到。
为开发能够与用户交流的人工智能模型,高质量的对话数据集至关重要。促进聊天机器人与用户之间更深入的互动的一种方法是通过人物角色,即用户性格、动机和行为的洞察。在多样化和全面的基于人物角色的数据集上训练自然语言处理(NLP)模型可以导致创造与用户建立更深连接并保持其参与度的对话模型。在本文中,我们利用大型语言模型(LLMs)的力量,从种子数据集创建一个大规模、高质量的对话数据集。我们提出了一个生成-评论者架构框架,以扩展初始数据集的同时提高对话质量。生成器是一个被提示输出对话的LLM。评论者由一组专家LLMs组成,控制生成对话的质量。这些专家选择最佳的生成对话,然后我们用它们来改进生成器。我们发布了合成人物对话数据集,包括从人物对话中种子生成的20k个对话。我们通过大量实验评估了合成人物对话数据集的质量以及我们的生成框架在不同维度上的表现,并观察到在图灵测试中,合成人物对话数据集与人物对话之间的失败率在三次迭代中从17.2%下降到8.8%。
本系列的目标是记录机器学习领域的观点和问题,包括当前的情况以及随着时间的推移发生的变化。计划定期举办这项调查,直到人工智能的奇点、纸夹狂热驱动的世界末日,持续更新主题问题列表,并为每期采访新的社区成员。在本期中,我们探讨了人们对可解释人工智能、现代自然语言处理中基准测试的价值、对深度学习理解进展的现状,以及学术界的未来。