每日精选AI研究论文及翻译
我们提出了Magic123,这是一种用于从野外单个未摆姿态图像生成高质量带纹理3D网格的两阶段粗到精方法,利用了2D和3D先验知识。在第一阶段,我们优化神经辐射场以生成粗略几何结构。在第二阶段,我们采用了一种内存高效的可微网格表示,生成具有视觉吸引力纹理的高分辨率网格。在两个阶段中,通过参考视图监督和由2D和3D扩散先验知识组合引导的新视图,学习3D内容。我们引入了一个单一的权衡参数,用于控制生成几何形状的探索(更具想象力)和开发(更精确)之间的平衡。此外,我们采用文本反演和单目深度正则化,以鼓励视图之间的一致外观,并防止退化解。Magic123在合成基准和多样化的真实世界图像上进行了广泛实验证明,相较于先前的图像到3D技术,取得了显著改进。我们的代码、模型和生成的3D资产可在https://github.com/guochengqian/Magic123 获取。
大型语言模型(LLMs)提供了一种有希望的工具,使机器人能够执行复杂的机器人推理任务。然而,当代LLMs的有限上下文窗口使得在长时间范围内进行推理变得困难。像家用机器人可能执行的那种具体任务通常需要规划者考虑很久之前获取的信息(例如,机器人先前在环境中遇到的许多物体的属性)。试图使用LLM的隐式内部表示捕捉世界状态受到任务和环境相关信息在机器人行动历史中的稀缺性的影响,而依赖于通过提示向LLM传达信息的方法受制于其有限的上下文窗口。在本文中,我们提出了Statler,这是一个框架,赋予LLMs对世界状态的显式表示,作为一种随时间保持的“记忆”。Statler的核心是其使用两个通用LLMs实例——一个世界模型阅读器和一个世界模型编写器——与世界状态进行交互并维护。通过提供对这种世界状态“记忆”的访问,Statler提高了现有LLMs在无上下文长度约束下推理更长时间范围的能力。我们在三个模拟桌面操作领域和一个真实机器人领域上评估了我们方法的有效性,并展示了它在基于LLM的机器人推理中的最新进展。项目网站:https://statler-lm.github.io/
视觉Transformer(ViTs)已经显著改变了计算机视觉领域,并在视觉任务中周期性地展现出比卷积神经网络(CNNs)更优越的性能。虽然目前尚无定论哪种模型类型更优越,但每种模型都具有独特的归纳偏差,塑造了它们的学习和泛化性能。例如,ViTs在早期层的非局部特征依赖方面具有有趣的特性,以及能够增强学习灵活性的自注意机制,使其能够更有效地忽略图像中的非上下文信息。我们假设这种忽略非上下文信息的能力(我们称之为补丁选择性),结合在早期层以非局部方式整合上下文信息的能力,使ViTs能够更轻松地处理遮挡。在这项研究中,我们的目标是看看是否我们可以让CNNs模拟这种补丁选择性的能力,通过有效地硬编码这种归纳偏差,使用Patch Mixing数据增强,其中包括将另一幅图像的补丁插入训练图像,并在两个图像类之间插值标签。具体来说,我们使用Patch Mixing来训练最先进的ViTs和CNNs,并评估其对它们忽略非上下文补丁和处理自然遮挡能力的影响。我们发现,ViTs在使用Patch Mixing训练时既不会提高也不会降低,但CNNs获得了忽略非上下文信息和改进遮挡基准的新能力,这使我们得出结论,这种训练方法是在CNNs中模拟ViTs已经具备的能力的一种方式。我们将发布我们的Patch Mixing实现和提议的数据集供公共使用。项目页面:https://arielnlee.github.io/PatchMixing/
在深度学习理论中,表示的协方差矩阵充当了检验网络可训练性的代理。受到Transformer成功的启发,我们研究了带有跳跃连接的修改Softmax-based注意力模型的协方差矩阵,在无限深度和宽度的比例极限下。我们展示了在初始化时,极限分布可以用深度-宽度比率索引的随机微分方程(SDE)来描述。为了实现良好定义的随机极限,Transformer的注意力机制通过将Softmax输出居中于单位矩阵,并通过依赖于宽度的温度参数来缩放Softmax对数。我们通过相应的SDE检验了网络的稳定性,展示了如何借助残差连接优雅地控制漂移和扩散的尺度。稳定SDE的存在意味着协方差结构表现良好,即使在非常大的深度和宽度下,也能避免深度注意力模型中的秩退化等问题。最后,我们通过模拟展示了SDE对应有限尺寸模型的出人意料的良好描述。我们为这些架构修改命名为“形状Transformer”。
本文提出了一种新机制,用于促进面向全景分割的口罩变换器的训练,使其部署更加普及化。我们观察到,由于其高复杂性,全景分割的训练目标将不可避免地导致更高的假阳性惩罚。这种不平衡的损失使得基于端到端口罩变换器的架构的训练过程变得困难,特别是对于高效模型。在本文中,我们提出了ReMaX,它在面向全景分割的训练过程中为口罩预测和类别预测添加了放松。我们展示了通过这些简单的放松技术,在训练过程中,我们的模型可以在不增加任何额外计算成本的情况下,始终得到明显的改进。通过将我们的方法与MobileNetV3-Small等高效骨干网络结合使用,我们的方法在COCO、ADE20K和Cityscapes上实现了高效全景分割的新的最先进结果。代码和预训练检查点将在https://github.com/google-research/deeplab2 上提供。