每日精选AI研究论文及翻译
最近出现的自监督预训练技术的兴起导致了多模态学习在形式文件理解中的广泛应用。然而,现有的将掩码语言建模扩展到其他模态的方法需要仔细的多任务调整、复杂的重构目标设计或额外的预训练数据。在FormNetV2中,我们引入了一种集中的多模态图对比学习策略,将所有模态的自监督预训练统一为一个损失函数。图对比目标最大化多模态表示的一致性,为所有模态提供自然的相互作用,无需特殊定制。此外,我们提取了连接图边缘上一对令牌的边界框内的图像特征,捕获更有针对性的视觉线索,而无需加载复杂且单独预训练的图像嵌入器。FormNetV2在FUNSD、CORD、SROIE和Payment基准测试中建立了新的最先进性能,同时具有更紧凑的模型尺寸。
目前对可访问创建可动和可定制的高质量3D头像的需求日益增长。虽然3D可变形模型提供了直观的控制以进行编辑和动画制作,并且对于单视图人脸重建具有鲁棒性,但它们无法轻松捕捉几何和外观细节。基于神经隐式表示的方法,如有符号距离函数(SDF)或神经辐射场,接近于照片逼真,但难以进行动画制作,并且在未见数据上泛化能力有限。为了解决这一问题,我们提出了一种新颖的方法,用于构建隐式3D可变形人脸模型,既具有泛化能力,又易于编辑。通过训练一系列高质量的3D扫描,我们的人脸模型由几何、表情和纹理潜在编码参数化,具有学习的SDF和显式UV纹理参数化。一旦训练完成,我们可以利用学习的先验知识,将图像投影到我们模型的潜在空间中,从而从单个野外图像重建头像。我们的隐式可变形人脸模型可用于从新视角渲染头像,通过修改表情编码来实现面部表情动画,并通过直接在学习的UV纹理地图上绘制来编辑纹理。我们定量和定性地证明,与最先进的方法相比,我们的方法在照片逼真度、几何和表情准确性方面有所提高。
本文提出了神经编辑器 NeuralEditor,可使神经辐射场(NeRFs)在一般形状编辑任务中本地可编辑。尽管在新视角合成方面取得了令人印象深刻的成果,但对于 NeRFs 来说,编辑场景形状仍然是一个基本挑战。我们的关键见解是利用显式点云表示作为构建 NeRFs 的基础结构,受 NeRF 渲染的直观解释启发,即将相关的 3D 点云投影或“绘制”到 2D 图像平面的过程。为此,NeuralEditor 提出了一种基于 K-D 树引导的密度自适应体素内确定性积分的新型渲染方案,通过优化实现了高质量的渲染结果和精确的点云。然后,NeuralEditor 通过映射点云之间的相关点执行形状编辑。广泛的评估表明,NeuralEditor 在形状变形和场景变形任务中实现了最先进的性能。值得注意的是,NeuralEditor 支持零次推断和对编辑后场景的进一步微调。我们的代码、基准测试和演示视频可在 https://immortalco.github.io/NeuralEditor 获取。
多语言机器翻译承诺提高非英语语言之间的翻译质量。这对多方面都是有利的,主要包括较低的延迟(无需进行两次翻译)和减少错误级联(例如,在通过英语翻译时避免丢失性别和正式性信息)。然而,增加更多语言会降低每种语言的模型容量,通常通过增加整体模型大小来抵消,这会使训练变得更加困难,推理速度变慢。在这项工作中,我们引入了语言特定的Transformer层(LSLs),这使我们能够增加模型容量,同时保持正向传递中使用的计算量和参数数量恒定。关键思想是使编码器的一些层为源语言或目标语言特定,同时保持其余层共享。我们通过受启发的神经架构搜索方法研究了放置这些层的最佳方式,并在单独的解码器架构上实现了比不使用LSLs提高了1.3 chrF(1.5 spBLEU)点,以及在共享解码器上提高了1.9 chrF(2.2 spBLEU)点。
人工智能任务涵盖了广泛的领域和领域。虽然已经为特定任务和应用设计了许多人工智能模型,但通常需要大量人力来找到合适的模型架构、优化算法和超参数。像ChatGPT这样的大型语言模型(LLMs)的最新进展展示了在推理、理解和交互的各个方面具有显著能力。因此,我们提出开发面向任务的提示,并自动利用LLMs来自动化训练流程。为了实现这一概念,我们提出了AutoML-GPT,它采用GPT作为连接各种人工智能模型的桥梁,并动态地训练具有优化超参数的模型。AutoML-GPT动态地从模型和数据卡中获取用户请求,并组成相应的提示段落。最终,借助AutoML-GPT强大的语言能力和可用的人工智能模型,它可以处理各种复杂的人工智能任务和数据集。这种方法在计算机视觉、自然语言处理和其他具有挑战性的领域取得了显著成果。大量实验和消融研究表明,我们的方法可以是通用的、有效的,并且对许多人工智能任务都是有益的。
最近,由于大型语言模型的使用,代码生成能力得到了显著改善,主要受益于通用编程语言。领域特定语言,比如用于IT自动化的语言,尽管涉及许多活跃开发人员并且是现代云平台的重要组成部分,但受到的关注却较少。本研究侧重于Ansible-YAML的生成,这是一种广泛用于IT自动化的标记语言。我们提出了Ansible Wisdom,这是一个旨在提高IT自动化生产力的自然语言到Ansible-YAML代码生成工具。Ansible Wisdom是一个基于Transformer的模型,通过使用包含Ansible-YAML的新数据集进行训练进行了扩展。我们还开发了两个针对YAML和Ansible的新颖性能指标,以捕捉该领域的特定特征。结果表明,Ansible Wisdom能够准确地从自然语言提示中生成Ansible脚本,其性能与现有最先进的代码生成模型相当或更好。
在拥挤且动态的环境中持续追踪物体对计算机视觉系统仍然是一个艰巨的挑战。本文介绍了TCOW,一个针对在高度遮挡和包围中进行视觉跟踪的新基准和模型。我们设定了一个任务,即在给定视频序列的情况下,分割目标物体的投影范围,以及当存在容器或遮挡物时,也要对其进行分割。为了研究这一任务,我们创建了一组混合的合成和标注真实数据集,以支持监督学习和模型在各种任务变化形式下的结构化评估,如移动或嵌套包围。我们评估了两种最近基于Transformer的视频模型,并发现虽然它们在某些任务变化设置下可以出人意料地追踪目标,但在我们宣称跟踪模型已经获得了真正的物体持久性概念之前,仍然存在相当大的性能差距。
纹理是创建视觉吸引力和逼真的3D模型的重要方面。在本文中,我们研究了在给定3D资产形状的情况下生成高保真度纹理的问题,相较于通用3D形状建模,这个问题相对较少被探索。我们的目标是促进可控制的纹理生成过程,使得一个纹理编码可以对应于特定的外观风格,而与来自某一类别的任何输入形状无关。我们引入了纹理UV辐射场(TUVF),在可学习的UV球空间中生成纹理,而不是直接在3D形状上生成。这使得纹理可以与底层形状解耦,并且可转移到共享相同UV空间的其他形状,即来自同一类别的形状。我们将UV球空间与辐射场相结合,这提供了比传统纹理贴图更高效和准确的纹理表示。我们在真实世界的对象数据集上进行实验,不仅实现了逼真的合成,而且在纹理控制和编辑方面也比现有技术取得了实质性的改进。项目页面:https://www.anjiecheng.me/TUVF
我们专注于重建人类头部的高保真辐射场,捕捉其随时间的动画,并从任意时间步长的新视角合成重新渲染。为此,我们提出了一个新的多视角捕捉设置,由16台经校准的机器视觉摄像头组成,以7.1 MP分辨率和每秒73帧记录同步图像。通过我们的设置,我们收集了一个包含超过4700个高分辨率、高帧率序列的新数据集,涵盖了220多个人类头部,从中我们引入了一个新的人类头部重建基准。记录的序列涵盖了广泛的面部动态,包括头部运动、自然表情、情绪和口语。为了重建高保真度的人类头部,我们提出了使用哈希集成的动态神经辐射场(NeRSemble)。我们通过结合变形场和一组3D多分辨率哈希编码来表示场景动态。变形场允许精确建模简单场景运动,而哈希编码的集成有助于表示复杂动态。因此,我们获得了捕捉随时间运动并促进重新渲染任意新视角的人类头部辐射场表示。在一系列实验中,我们探索了我们方法的设计选择,并证明我们的方法在很大程度上优于最先进的动态辐射场方法。
我们引入了Masked Trajectory Models (MTM) 作为顺序决策制定的通用抽象。MTM接受轨迹,比如状态-动作序列,并旨在在相同轨迹的随机子集条件下重建轨迹。通过使用高度随机化的遮罩模式进行训练,MTM学习到可以在推断时通过简单选择适当的遮罩来扮演不同角色或具备不同能力的多功能网络。例如,同一MTM网络可以用作前向动力学模型、逆向动力学模型,甚至是离线RL代理。通过在多个连续控制任务中进行大量实验,我们展示了相同的MTM网络 -- 即相同的权重 -- 可以与为上述能力训练的专门网络相匹敌甚至胜过。此外,我们发现MTM学习的状态表示可以显著加快传统RL算法的学习速度。最后,在离线RL基准测试中,我们发现MTM与专门的离线RL算法相媲美,尽管MTM是一种通用的自监督学习方法,没有任何显式的RL组件。代码可在https://github.com/facebookresearch/mtm 找到。
最近,DeepNorm 将 Transformer 扩展到极深层(即 1000 层),展示了深度扩展的潜在优势。为了稳定深度模型的训练,DeepNorm(Wang 等,2022)尝试将模型更新限制为一个恒定值。尽管应用这种约束可以使模型训练的早期阶段受益,但可能导致整个训练过程中模型训练不足。在本文中,我们提出了 BranchNorm,它根据训练阶段动态重新调整 Transformer 的非残差分支。BranchNorm 不仅在早期阶段理论上稳定了训练,而且在后续训练阶段鼓励更好的收敛。在多个翻译任务上的实验结果表明,BranchNorm 在训练稳定性和收敛性能之间取得了更好的平衡。
我们提出了一个完整的系统,用于实时渲染先前仅用于离线使用的具有复杂外观的场景。这是通过算法和系统级创新的结合实现的。 我们的外观模型利用了学习的分层纹理,通过神经解码器进行解释,产生反射值和重要采样方向。为了最大限度地利用解码器的建模能力,我们为解码器配备了两个图形先验。第一个先验——将方向转换为学习的着色框架——有助于准确重建中尺度效应。第二个先验——微平面采样分布——允许神经解码器高效执行重要采样。由此产生的外观模型支持各向异性采样和层次细节渲染,并允许将深度分层材质图层烘焙成紧凑的统一神经表示。 通过将硬件加速的张量操作暴露给光线追踪着色器,我们展示了在实时路径追踪器内高效内联和执行神经解码器的可能性。我们分析了随着神经材质数量增加而增加的可扩展性,并提出使用针对一致和分歧执行优化的代码来提高性能。我们的神经材质着色器可以比非神经分层材质快一个数量级。这为在游戏和实时预览等实时应用中使用电影质量的视觉效果打开了大门。
大型语言模型(LLMs)驱动着自然语言处理中许多最先进的系统。然而,这些模型在推断时非常耗费计算资源,自然引发了一个问题:在部署更大模型的额外成本何时值得预期的能力提升?更好地理解这种权衡基本上可以从推断效率度量中获益,这种度量既易于跨不同提供者的模型进行比较,又代表了在独立性能环境中运行查询的真实成本。不幸的是,如今对LLMs的访问主要限于黑盒文本生成API和通过该接口测量的原始运行时间,并不能满足这些要求:模型提供者可以应用与模型正交的各种软件和硬件优化,而在共享基础设施上提供的模型容易受到性能争用的影响。为了规避这些问题,我们提出了一种用于比较模型推断效率的新度量标准。该度量标准使模型处于相同的地位,就好像它们是(i)在统一的硬件和软件上提供的,以及(ii)没有性能争用。我们将这个度量标准称为理想化运行时间,并提出了一种有效估算自回归Transformer模型的方法。我们还提出了考虑成本的变体,这些变体包括为提供模型所需的加速器数量。利用这些度量标准,我们比较了十个最先进的LLMs,以提供关于推断效率和能力权衡的首次分析;我们从这一分析中得出了几点观察,包括某些API的卓越推断运行时性能往往是API内部优化的副产品,而不是基础模型。我们的方法还有助于有效比较不同的软件和硬件堆栈。
预训练的大型语言模型(LLMs)捕捉了关于世界的程序化知识。最近的研究利用了LLM生成抽象计划的能力,通过动作评分或动作建模(微调)来简化具有挑战性的控制任务。然而,变压器架构继承了一些限制,使得LLM难以直接作为代理:例如有限的输入长度、微调效率低、来自预训练的偏见,以及与非文本环境的不兼容性。为了与低级可训练的执行者保持兼容性,我们建议利用LLMs中的知识来简化控制问题,而不是解决它。我们提出了计划、消除和跟踪(PET)框架。计划模块将任务描述转换为高级子任务列表。消除模块会从当前子任务的观察中屏蔽不相关的对象和容器。最后,跟踪模块确定代理是否完成了每个子任务。在AlfWorld指令跟随基准测试中,PET框架使得对人类目标规范的泛化显著提高了15%,超过了目前技术水平。