每日精选AI研究论文及翻译
利用大型视觉-语言模型(如稳定扩散(SD)),在图像编辑、图像对应以及3D形状生成等多种下游任务中取得了重大进展。受到这些进展的启发,我们探索了如何利用这些庞大的视觉-语言模型,通过提出SLiMe,在任意所需粒度上对图像进行分割,只需使用一个标注样本。SLiMe将这一问题构建为一个优化任务。具体而言,给定一张训练图像及其分割蒙版,我们首先从SD先验中提取注意力图,包括我们的新颖的“加权累积自注意力图”。然后,利用提取的注意力图,优化稳定扩散的文本嵌入,使得每个文本嵌入都学习训练图像中的一个分割区域。这些学习到的嵌入然后在注意力图中突出显示分割区域,从而可以用来生成分割图。这使得SLiMe能够在推断过程中对任意实际图像进行分割,粒度与训练图像中的分割区域相匹配,仅需一个示例。此外,当有额外的训练数据可用时,即少样本情况,可以提高SLiMe的性能。我们进行了一系列富有知识的实验,考察了各种设计因素,并表明SLiMe优于其他现有的一次性和少样本分割方法。
先前的研究通常假设大型语言模型无法准确执行算术运算,特别是超过8位数字的乘法,以及涉及小数和分数的运算,而无需使用计算器工具。本文旨在挑战这一误解。通过充分的训练数据,一个拥有20亿参数的语言模型可以在几乎100%的准确率下执行多位数的算术运算,而无数据泄漏,明显超过了GPT-4(其多位数乘法准确率仅为4.3%)。我们还展示了我们的MathGLM,从GLM-10B微调而来,使用包含额外多步算术运算和文本描述的数学问题数据集,在一个包含5,000个样本的中文数学问题测试集上实现了与GPT-4类似的性能。
我们介绍了CM3Leon(发音为“Chameleon”),这是一种检索增强、基于标记的、仅解码器的多模态语言模型,能够生成和填充文本和图像。CM3Leon使用了CM3多模态架构,但另外展示了在更多样化的指导式数据上扩展和调整的极端好处。它是第一个使用从仅文本语言模型调整而来的配方进行训练的多模态模型,包括一个大规模的检索增强预训练阶段和第二个多任务监督微调(SFT)阶段。它还是一个通用模型,可以进行文本到图像和图像到文本的生成,使我们能够引入自包含的对比解码方法,产生高质量的输出。大量实验证明,这个配方对于多模态模型非常有效。CM3Leon在文本到图像生成方面实现了最先进的性能,比可比方法少5倍的训练计算(零样本MS-COCO FID为4.88)。经过SFT,CM3Leon还可以展示在任务中前所未有的可控性水平,范围从语言引导的图像编辑到图像控制的生成和分割。
我们介绍了Matcha-TTS,这是一种新的编码器-解码器架构,用于快速TTS声学建模,训练使用最优输运条件流匹配(OT-CFM)。这产生了一种基于ODE的解码器,能够在比使用得分匹配训练的模型更少的合成步骤中实现高输出质量。谨慎的设计选择还确保每个合成步骤运行速度快。该方法是概率的、非自回归的,并且可以从头开始学会说话而无需外部对齐。与强大的预训练基线模型相比,Matcha-TTS系统具有最小的内存占用,与最快模型在长句上的速度相媲美,并在听觉测试中获得最高的平均意见分数。请参阅https://shivammehta25.github.io/Matcha-TTS/ 获取音频示例、代码和预训练模型。
最近视觉语言模型(VLMs)的进展已经提高了视觉问答和图像字幕等任务的性能。因此,这些模型现在能够很好地推理物理世界,特别是在诸如机器人操作等领域。然而,当前的VLMs在对常见物体的物理概念(例如材料、脆弱性)的理解方面存在局限,这限制了它们在涉及与这些物体的交互和物理推理的机器人操作任务中的实用性。为了解决这一局限性,我们提出了PhysObjects,这是一个以物体为中心的数据集,包含36.9K个众包和417K个自动化的常见家庭物体的物理概念注释。我们展示了在PhysObjects上微调VLM可以提高其对物理物体概念的理解,通过从视觉外观中捕捉这些概念的人类先验知识。我们将这个具有物理基础的VLM纳入一个交互框架中,该框架由基于大型语言模型的机器人规划器组成,并展示了在需要推理物理物体概念的任务上,与不利用具有物理基础的VLMs的基线相比,规划性能得到了改善。此外,我们还展示了具有物理基础的VLM在真实机器人上的好处,它提高了任务成功率。我们发布了我们的数据集,并在https://iliad.stanford.edu/pg-vlm/提供了进一步的细节和结果的可视化。
神经场是一类经过训练以表示高频信号的神经网络,近年来因其在建模复杂的3D数据方面表现出色而备受关注,特别是通过单个多层感知器(MLP)模拟大型神经符号距离(SDFs)或辐射场(NeRFs)。然而,尽管使用MLP表示信号具有强大和简单的特性,但由于MLP的容量有限,这些方法在建模大型和复杂的时间信号时仍然面临挑战。本文提出了一种有效的方法来解决这一局限性,即将时间残差层纳入神经场中,命名为ResFields,这是一种专门设计用于有效表示复杂时间信号的新型网络类别。我们对ResFields的特性进行了全面分析,并提出了一种矩阵分解技术,以减少可训练参数的数量并增强泛化能力。重要的是,我们的公式与现有技术无缝集成,并在各种具有挑战性的任务中始终改善结果:2D视频逼近、通过时间SDFs进行动态形状建模以及动态NeRF重建。最后,我们通过展示ResFields在从轻量级捕获系统的稀疏感知输入中捕获动态3D场景方面的有效性,展示了ResFields的实际效用。
神经辐射场(Neural Radiance Fields,NeRFs)在视图合成和深度估计等应用中表现出潜力,但从多视图图像中学习面临固有的不确定性。目前用于量化这些不确定性的方法要么是启发式的,要么计算成本高。我们引入了BayesRays,这是一个事后框架,用于评估任何预先训练的NeRF中的不确定性,而无需修改训练过程。我们的方法利用空间扰动和贝叶斯拉普拉斯逼近建立体积不确定性场。我们从统计学上推导了我们的算法,并展示了其在关键指标和应用中的卓越性能。更多结果请访问:https://bayesrays.github.io。
人类灵巧性是运动控制的一个标志。尽管肌肉骨骼感觉-运动回路的复杂性(多关节和多关节,有23个关节由40多块肌肉控制),我们的手能够快速合成新的行为。在这项工作中,我们受到人类灵巧性如何基于多样的先前经验而非通过单一任务获得的启发。受到这一观察的启发,我们着手开发能够建立在先前经验基础上迅速获得新行为(以前无法实现的)的代理。具体而言,我们的方法利用多任务学习隐式捕捉任务无关的行为先验(MyoDex),以人类手部模型MyoHand为基础实现类似人类灵巧性。我们展示了MyoDex在少样本泛化以及对大量未见灵巧操纵任务的积极迁移中的有效性。利用MyoDex的代理可以解决大约3倍更多的任务,并且比蒸馏基线快4倍。尽管先前的工作合成了单一的肌肉骨骼控制行为,但MyoDex是第一个通用的操纵先验,促进了对大量接触丰富行为的灵巧生理控制的学习。我们还展示了我们的范式在肌肉骨骼控制之外对Adroit Hand的24个自由度的灵巧性获取的有效性。网站:https://sites.google.com/view/myodex