每日精选AI研究论文及翻译
本文介绍了Depth Anything,这是一种用于稳健单目深度估计的高度实用解决方案。我们的目标不是追求新颖的技术模块,而是构建一个简单而强大的基础模型,可以处理任何图像在任何情况下。为此,我们通过设计一个数据引擎来扩大数据集,收集并自动标注大规模未标记数据(约62M),从而显著扩大数据覆盖范围,进而能够减少泛化误差。我们研究了两种简单而有效的策略,使数据扩展变得有前途。首先,通过利用数据增强工具创建一个更具挑战性的优化目标。这迫使模型积极寻求额外的视觉知识并获得稳健的表示。其次,开发了辅助监督,强制模型从预训练编码器那里继承丰富的语义先验。我们广泛评估了其零样本能力,包括六个公共数据集和随机拍摄的照片。它展示了令人印象深刻的泛化能力。此外,通过使用来自NYUv2和KITTI的度量深度信息对其进行微调,我们创造了新的SOTAs。我们更好的深度模型还导致更好的深度条件控制网络。我们的模型发布在https://github.com/LiheYoung/Depth-Anything。
管道并行是大规模分布式训练的关键组成部分之一,然而其效率受到管道气泡的影响,这被认为是不可避免的。在这项工作中,我们引入了一种调度策略,据我们所知,这是第一次成功在同步训练语义下实现零管道气泡。这一改进背后的关键思想是将反向计算分为两部分,一部分计算输入的梯度,另一部分计算参数的梯度。基于这一思想,我们手工设计了新颖的管道调度方案,明显优于基准方法。我们进一步开发了一种算法,根据特定模型配置和内存限制自动找到最佳调度。此外,为了真正实现零气泡,我们引入了一种新颖的技术,在优化器步骤中绕过同步。实验评估表明,我们的方法在类似的内存限制下比1F1B调度的吞吐量高出多达23%。当内存约束放宽时,这一数字可以进一步提高至31%。我们相信我们的结果标志着在利用管道并行潜力方面迈出了重要的一步。我们在https://github.com/sail-sg/zero-bubble-pipeline-parallelism 上基于流行的Megatron-LM存储库开源了我们的实现。
为了电影行业和视觉效果社区,生成与前景主体运动相适应的视频背景是一个重要问题。这项任务涉及合成与前景主体运动和外观相一致的背景,同时符合艺术家的创意意图。我们引入了ActAnywhere,这是一个自动化这一传统上需要繁琐手动工作的生成模型。我们的模型利用大规模视频扩散模型的强大功能,专门为这一任务量身定制。ActAnywhere接受一系列前景主体分割作为输入,以及描述所需场景的图像作为条件,生成一个连贯的视频,其中前景和背景互动逼真,同时遵循条件帧。我们在一个大规模的人-场景互动视频数据集上训练我们的模型。广泛的评估表明我们的模型表现优异,明显优于基准线。此外,我们展示了ActAnywhere可以泛化到各种不同的分布样本,包括非人类主体。请访问我们的项目网页 https://actanywhere.github.io。
本文提出了一种基于扩散模型的框架,用于从单个图像为给定目标3D运动序列中的人物进行动画化。我们的方法有两个核心组成部分:a)学习关于人体和服装不可见部分的先验知识,b)呈现具有适当服装和纹理的新身体姿势。对于第一部分,我们学习了一个填充扩散模型,以从单个图像中虚拟出一个人的不可见部分。我们在纹理映射空间上训练这个模型,这使其更具样本效率,因为它对姿势和视角不变。其次,我们开发了一个基于扩散的渲染流水线,由3D人体姿势控制。这产生了人物新姿势的逼真渲染,包括服装、头发和对不可见区域的合理填充。这种解耦方法使我们的方法能够生成一系列图像,这些图像在3D姿势方面忠实于目标运动,并在视觉相似性方面忠实于输入图像。除此之外,3D控制允许各种合成摄像机轨迹来渲染一个人。我们的实验表明,与先前方法相比,我们的方法在生成持续运动和各种具有挑战性和复杂姿势方面具有韧性。请查看我们的网站以获取更多详细信息:https://boyiliee.github.io/3DHM.github.io/。
口述功能使移动设备上的文本输入更加高效。然而,语音书写可能会产生不流畅、冗长和不连贯的文本,因此需要进行大量的后期处理。本文介绍了Rambler,这是一个由LLM驱动的图形用户界面,支持对口述文本进行主旨级别的操作,具有两组主要功能:主旨提取和宏观修订。主旨提取生成关键词和摘要作为锚点,以支持审阅和与口述文本的交互。LLM辅助的宏观修订允许用户在不指定精确编辑位置的情况下重新讲述、拆分、合并和转换口述文本。它们共同为交互式口述和修订铺平道路,有助于弥合口语化的言辞和结构良好的书面表达之间的差距。在与12名参与者执行口头作文任务的比较研究中,Rambler胜过了基准组,即语音转文本编辑器+ChatGPT,因为它更好地促进了具有增强用户控制权的迭代修订,同时支持了令人惊讶地多样化的用户策略。
本文研究了视频的基于概念的Transformer表示的可解释性问题。具体而言,我们试图解释基于高级时空概念的视频Transformer的决策过程,这些概念是自动发现的。先前关于基于概念的可解释性的研究仅集中在图像级任务上。相比之下,视频模型涉及额外的时间维度,增加了复杂性,并在识别随时间变化的动态概念方面提出了挑战。在这项工作中,我们通过引入第一个视频Transformer概念发现(VTCD)算法系统地解决了这些挑战。为此,我们提出了一种有效的方法,用于无监督地识别视频Transformer表示的单元 - 概念,并对其对模型输出的重要性进行排名。得到的概念具有很高的可解释性,揭示了在非结构化视频模型中的时空推理机制和以对象为中心的表示。通过在各种监督和自监督表示上联合进行这种分析,我们发现其中一些机制在视频Transformer中是通用的。最后,我们证明了VTCD可用于改善精细任务的模型性能。