每日精选AI研究论文及翻译
规范表面映射通过将对象的每个像素分配给3D模板中的相应点来推广关键点检测。由于DensePose在人体分析中的流行,作者们尝试将这一概念应用于更多类别,但由于手动监督的高成本而取得了有限的成功。在这项工作中,我们介绍了SHIC,一种无需手动监督就能学习规范映射的方法,其在大多数类别中取得了比监督方法更好的结果。我们的想法是利用基础计算机视觉模型,如DINO和Stable Diffusion,这些模型是开放式的,因此对自然类别具有出色的先验知识。SHIC将估计图像到模板对应关系的问题简化为使用基础模型的特征来预测图像到图像的对应关系。这种简化通过将对象的图像与模板的非照片般渲染进行匹配来实现,这模拟了收集此任务的手动注释的过程。然后,这些对应关系被用来监督任何感兴趣对象的高质量规范映射。我们还展示了图像生成器可以进一步改善模板视图的逼真度,为模型提供了额外的监督来源。
解决日常数字任务(例如,为一个家庭订购杂货)的自主代理,不仅必须通过API操作多个应用程序(例如,笔记、消息、购物应用程序),还必须根据它们与环境的交互以迭代方式生成具有复杂控制流的丰富代码。然而,现有的工具使用基准不足以满足要求,因为它们只涵盖需要简单API调用序列的任务。 为弥补这一差距,我们构建了AppWorld引擎,这是一个高质量的执行环境(60K行代码),包含9个日常应用程序,可通过457个API操作,并填充了模拟约100个虚构用户生活的真实数字活动。然后,我们创建了AppWorld基准(40K行代码),这是一个包含750个自然、多样且具有挑战性的自主代理任务的套件,需要生成丰富且互动的代码。它支持基于状态的单元测试进行强大的程序化评估,允许以不同方式完成任务,同时还检查意外更改,即,附带损害。最先进的LLM,GPT-4o,仅解决了我们“正常”任务的约49%和“挑战”任务的约30%,而其他模型解决的任务至少少16%。这突显了基准测试的难度和AppWorld推动交互式编码代理的潜力。项目网站可访问https://appworld.dev/。
我们提出了Wolf,这是一个用于准确视频字幕生成的WOrLd总结框架。Wolf是一个自动字幕生成框架,采用了专家混合方法,利用视觉语言模型(VLMs)的互补优势。通过同时利用图像和视频模型,我们的框架捕获了不同级别的信息并高效地总结了它们。我们的方法可以应用于增强视频理解、自动标注和字幕生成。为了评估字幕质量,我们引入了CapScore,这是一种基于LLM的度量标准,用于评估生成的字幕与基准字幕之间的相似性和质量。我们进一步在三个领域构建了四个人工注释数据集:自动驾驶、一般场景和机器人技术,以促进全面比较。我们展示了Wolf相比研究界最先进方法(VILA1.5、CogAgent)和商业解决方案(Gemini-Pro-1.5、GPT-4V)实现了更优越的字幕生成性能。例如,在具有挑战性的驾驶视频中,与GPT-4V相比,Wolf在质量方面提高了55.6%,在相似性方面提高了77.4%的CapScore。最后,我们为视频字幕生成建立了一个基准,并引入了一个排行榜,旨在加速视频理解、字幕生成和数据对齐方面的进展。排行榜:https://wolfv0.github.io/leaderboard.html。
我们提出了系统性的工作,从零开始构建长上下文多语言文本表示模型(TRM)和重新排序器,用于文本检索。我们首先介绍了一个文本编码器(基础尺寸),采用RoPE和去填充技术增强,预训练在本地8192令牌上下文(长于先前多语言编码器的512)。然后,我们通过对比学习构建了一个混合TRM和交叉编码器重新排序器。评估结果显示,我们的文本编码器优于同等大小的先前最先进的XLM-R。与此同时,我们的TRM和重新排序器与最先进的大型BGE-M3模型的性能相匹配,并在长上下文检索基准上取得更好的结果。进一步的分析表明,我们提出的模型在训练和推断过程中表现出更高的效率。我们相信它们的效率和有效性可以使各种研究和工业应用受益。
在我们日常生活中,类似笔的物体的手部操作是一项重要技能,因为许多工具如锤子和螺丝刀形状类似。然而,由于缺乏高质量的演示以及模拟与真实世界之间存在显著差距,当前基于学习的方法在这项任务上面临困难。在这项工作中,我们通过展示旋转类似笔的物体的能力,推动了基于学习的手部操作系统的边界。我们首先使用强化学习训练具有特权信息的预言策略,并在模拟中生成高保真度的轨迹数据集。这有两个目的:1)在模拟中预训练感知运动策略;2)在真实世界中进行开环轨迹重放。然后,我们使用这些真实世界轨迹对感知运动策略进行微调,以使其适应真实世界的动态。通过不到50条轨迹,我们的策略学会旋转超过十种具有不同物理特性的类似笔的物体,实现多次旋转。我们对设计选择进行了全面分析,并分享了开发过程中的经验教训。
视觉Transformer已经极大地推动了计算机视觉领域的发展,提供了强大的建模能力和全局感受野。然而,它们高昂的计算需求限制了它们在处理长序列方面的适用性。为了解决这一问题,状态空间模型(SSMs)在视觉任务中备受关注,因为它们提供了线性计算复杂度。最近,在Mamba2中引入了状态空间对偶(SSD),这是SSMs的改进变体,旨在增强模型性能和效率。然而,SSD/SSMs固有的因果关系特性限制了它们在非因果视觉任务中的应用。为了解决这一局限,我们引入了视觉状态空间对偶(VSSD)模型,它具有SSD的非因果格式。具体来说,我们建议舍弃隐藏状态与标记之间的相互作用的大小,同时保留它们的相对权重,从而减轻了标记贡献对先前标记的依赖性。结合多次扫描策略,我们展示了扫描结果可以被整合以实现非因果性,这不仅提高了SSD在视觉任务中的性能,还增强了其效率。我们在包括图像分类、检测和分割在内的各种基准测试上进行了大量实验,结果显示VSSD超越了现有的基于SSM的最先进模型。代码和权重可在https://github.com/YuHengsss/VSSD 获取。
最近关于从单个图像重建3D物体的研究主要集中在提高物体形状的准确性上。然而,这些技术通常无法准确捕捉物体、地面和摄像机之间的相互关系。因此,重建的物体通常在平面表面上呈现漂浮或倾斜的外观。这一局限严重影响了3D感知图像编辑应用,如阴影渲染和物体姿态操作。为了解决这个问题,我们引入了一项名为ORG(带地面的物体重建)的新任务,旨在重建3D物体几何形状以及地面表面。我们的方法使用两种紧凑的像素级表示来描述摄像机、物体和地面之间的关系。实验证明,所提出的ORG模型能够有效地在未见数据上重建物体-地面几何形状,与传统的单图像3D重建技术相比,显著提高了阴影生成和姿态操作的质量。