每日精选AI研究论文及翻译
在线域自适应语义分割的目标是处理部署过程中发生的无法预见的域变化,如突发天气事件。然而,与蛮力自适应相关的高计算成本使得这种范式在实际应用中不可行。本文提出了HAMLET,一种用于实时域自适应的硬件感知模块化最经济训练框架。我们的方法包括硬件感知反向传播编排代理(HAMT)和一个专用的领域转移检测器,它使模型何时以及如何进行适应(LT)能够进行主动控制。由于这些进展,我们的方法能够在单个消费级GPU上以超过29FPS的速度执行语义分割同时进行适应。通过实验结果,我们的框架在OnDA和SHIFT基准测试中展示了令人鼓舞的准确性和速度权衡。
我们提出了NeRF-Det,这是一种新颖的室内三维检测方法,以姿态RGB图像作为输入。与现有的室内三维检测方法不同,这些方法难以对场景几何进行建模,我们的方法巧妙地利用NeRF来明确估计三维几何,从而提高了三维检测性能。具体而言,为了避免与NeRF的每个场景优化相关的显着额外延迟,我们引入了足够的几何先验知识,以增强NeRF-MLP的泛化能力。此外,我们通过共享MLP微妙地连接检测和NeRF分支,实现了NeRF对检测的高效适应,并为三维检测提供了几何感知的体积表示。我们的方法在ScanNet和ARKITScenes基准测试中分别比现有技术高出3.9 mAP和3.1 mAP。我们进行了广泛的分析,以阐明NeRF-Det的工作原理。由于我们的联合训练设计,NeRF-Det能够很好地推广到未见场景,用于对象检测、视图合成和深度估计任务,而无需每个场景的优化。代码可在https://github.com/facebookresearch/NeRF-Det找到。
我们发布了 MiDaS v3.1 用于单目深度估计,提供了基于不同编码器骨干的多种新模型。此次发布受到了变压器在计算机视觉中的成功启发,现在有大量预训练视觉变压器可供使用。我们探讨了如何利用最具前景的视觉变压器作为图像编码器来影响 MiDaS 架构的深度估计质量和运行时间。我们的研究还包括最近在图像分类任务中实现与视觉变压器相媲美质量的卷积方法。在之前的 MiDaS v3.0 仅利用基础视觉变压器 ViT 的基础上,MiDaS v3.1 提供了基于 BEiT、Swin、SwinV2、Next-ViT 和 LeViT 的额外模型。这些模型提供了不同的性能-运行时权衡。最佳模型将深度估计质量提高了 28%,而高效模型则实现了需要高帧率的下游任务。我们还描述了集成新骨干的一般过程。可以在 https://youtu.be/UjaeNNFf9sE 找到总结该工作的视频,代码可在 https://github.com/isl-org/MiDaS 获取。
在实际机器学习中,保持跨批次大小的训练动态是一种重要工具,因为它可以在批次大小和墙钟时间之间进行权衡。这种权衡通常通过一个缩放规则来实现,例如,在随机梯度下降中,应该将学习率与批次大小线性缩放。另一个实际机器学习中的重要工具是指数移动平均模型(EMA),它是一个不接收梯度信息的模型副本,而是以一定的动量跟随其目标模型。这个EMA模型可以提高监督学习的鲁棒性和泛化性能,稳定伪标记,并为自监督学习提供学习信号。先前的研究将EMA模型与优化分开处理,导致不同批次大小之间的训练动态和较低的模型性能。在这项工作中,我们提供了一个优化缩放规则,以适应模型EMA的存在,并证明其在各种架构、优化器和数据模态下的有效性。我们还展示了该规则在模型EMA有助于优化目标模型的情况下的有效性,使我们能够在小批次和大批次大小下训练基于EMA的伪标记和自监督学习方法。对于自监督学习,我们实现了BYOL的训练,批次大小高达24,576,而不会牺牲性能,实现了最佳的6倍墙钟时间缩短。
在噪声扩散概率模型(DDPM)中,以小增量合成样本的扩散过程的渐进性质构成了关键要素,这在图像合成方面表现出前所未有的质量,并最近在运动领域得到了探索。在这项工作中,我们提议将渐进扩散概念(沿扩散时间轴操作)调整到运动序列的时间轴上。我们的关键思想是将DDPM框架扩展到支持时间变化的去噪,从而将这两个轴纠缠在一起。利用我们的特殊公式,我们迭代地去噪一个包含一组逐渐加噪姿势的运动缓冲区,这个过程自回归地生成任意长度的帧流。在固定的扩散时间轴上,在每个扩散步骤中,我们仅增加运动的时间轴,使框架生成一个新的干净帧,该帧从缓冲区的开头移除,然后附加一个新绘制的噪声向量。这种新机制为长期运动合成的新框架铺平了道路,适用于角色动画和其他领域。