每日精选AI研究论文及翻译
最近大型语言模型(LLMs)的进展导致了智能代理的产生,这些代理能够执行复杂任务。本文介绍了一种基于新颖LLM的多模态代理框架,旨在操作智能手机应用程序。我们的框架使代理能够通过简化的动作空间操作智能手机应用程序,模仿人类的交互,如点击和滑动。这种新颖方法绕过了对系统后端访问的需求,从而扩大了其在各种应用程序中的适用性。我们代理功能的核心是其创新性学习方法。代理通过自主探索或观察人类演示来学习如何导航和使用新应用程序。这一过程生成了一个知识库,代理可用于执行跨不同应用程序的复杂任务。为了展示我们代理的实用性,我们在10个不同应用程序中的50个任务上进行了广泛测试,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具。结果证实了我们代理在处理各种高级任务方面的熟练程度。
本文介绍了Paint3D,这是一个新颖的由粗到细的生成框架,能够在文本或图像输入的条件下为未纹理化的3D网格生成高分辨率、无光照且多样化的2K UV纹理贴图。所解决的关键挑战是生成高质量纹理,而不包含嵌入的光照信息,这使得纹理可以在现代图形管线中重新照明或重新编辑。为实现这一目标,我们的方法首先利用预训练的深度感知2D扩散模型生成视角条件图像,并进行多视角纹理融合,生成初始粗糙纹理贴图。然而,由于2D模型无法完全表示3D形状并禁用光照效果,粗糙纹理贴图呈现出不完整区域和光照伪影。为解决这一问题,我们训练了专门用于形状感知细化不完整区域和去除光照伪影的独立UV修补和UVHD扩散模型。通过这一由粗到细的过程,Paint3D能够生成保持语义一致性的高质量2K UV纹理,同时无光照,显著推进了纹理化3D对象的最新技术水平。
我们提出时间向量,这是一种简单的工具,用于定制语言模型以适应新的时间段。时间向量是通过在单个时间段(例如,一年或一个月)的数据上微调语言模型而创建的,然后减去原始预训练模型的权重。正如我们的实验所显示的那样,这个向量在权重空间中指定了一个方向,可以提高该时间段文本的性能。专门针对相邻时间段的时间向量似乎在流形中更接近。利用这种结构,我们在时间向量之间插值,诱导出在介于和未来时间段上表现更好的新模型,而无需进行额外的训练。我们展示了我们的发现在不同任务、领域、模型规模和时间尺度上的一致性。我们的结果表明,时间被编码在微调模型的权重空间中。
最近个性化文本到图像(T2I)模型的最新进展已经彻底改变了内容创作,使非专家能够生成具有独特风格的令人惊叹的图像。虽然有前景,但通过文本为这些个性化图像添加逼真的动作在保留独特风格、高保真细节和实现文本控制的运动方面存在重大挑战。在本文中,我们提出了PIA,一种个性化图像动画生成器,在与条件图像对齐、通过文本实现运动控制以及与各种个性化T2I模型兼容而无需特定调整方面表现出色。为实现这些目标,PIA基于一个基础T2I模型,配备经过良好训练的时间对齐层,使得任何个性化T2I模型都能无缝转换为图像动画模型。PIA的一个关键组成部分是引入条件模块,该模块利用条件帧和帧间关联作为输入,通过关联提示指导个别帧合成中的外观信息传递,从而在潜在空间中减轻外观相关图像对齐的挑战,并更加专注于与运动相关指导的对齐。
最近在文本引导的图像修复方面取得的进展,基于文本到图像扩散模型的空前成功,导致了异常逼真和视觉上可信的结果。然而,目前的文本到图像修复模型仍有显著的改进潜力,特别是在更好地将修复区域与用户提示对齐以及进行高分辨率修复方面。因此,在本文中,我们介绍了HD-Painter,这是一种完全无需训练的方法,能够准确地遵循提示并一致地扩展到高分辨率图像修复。为此,我们设计了Prompt-Aware Introverted Attention(PAIntA)层,通过提示信息增强自注意力分数,从而产生更好的文本对齐生成结果。为了进一步提高提示的连贯性,我们引入了Reweighting Attention Score Guidance(RASG)机制,将一种事后采样策略无缝集成到DDIM的一般形式中,以防止分布外的潜在偏移。此外,HD-Painter通过引入一种针对修复的专门超分辨技术,允许扩展到更大的尺度,能够完成高达2K分辨率的图像中缺失区域的修复。我们的实验表明,HD-Painter在质量和数量上均超越了现有的最先进方法,实现了惊人的生成准确度提高,为61.4% vs 51.9%。我们将在以下网址公开提供代码:https://github.com/Picsart-AI-Research/HD-Painter
最近在文本到三维任务中的最新进展利用微调的文本到图像扩散模型生成多视角图像,然后进行 NeRF 重建。然而,现有的监督微调(SFT)扩散模型仍然存在多视角不一致性和由此产生的 NeRF 瑕疵。尽管使用 SFT 进行更长时间的训练可以提高一致性,但也会导致分布转移,从而降低多样性和逼真细节。我们认为多视角扩散模型的 SFT 类似于 LLM 对齐流程中的指导微调阶段,并且可以从 RL 微调(RLFT)方法中受益。基本上,RLFT 方法通过使用其自身的输出优化模型,超越其 SFT 数据分布,有效地减轻分布转移。为此,我们引入 Carve3D,这是一种与多视角重建一致性(MRC)度量结合的 RLFT 方法,以改善多视角扩散模型的一致性。为了计算一组多视角图像上的 MRC,我们将其与在相同视角处重建的 NeRF 的相应渲染进行比较。我们通过在受控不一致性水平下进行的大量实验验证了 MRC 的稳健性。我们改进了基本的 RLFT 算法以稳定训练过程,减少分布转移,并确定缩放规律。通过定性和定量实验以及用户研究,我们展示了 Carve3D 相较于更长的 SFT 具有改进的多视角一致性、更优质的 NeRF 重建质量以及较小的分布转移。项目网页:https://desaixie.github.io/carve-3d。
我们介绍了ShowRoom3D,这是一种从文本生成高质量3D房间场景的三阶段方法。先前使用2D扩散先验来优化神经辐射场以生成房间规模场景的方法显示出了不尽人意的质量。这主要归因于2D先验缺乏3D意识和在训练方法上的约束。在本文中,我们利用了一种3D扩散先验,MVDiffusion,来优化3D房间规模场景。我们的贡献有两个方面。首先,我们提出了一个渐进式视图选择过程来优化NeRF。这涉及将训练过程分为三个阶段,逐渐扩大摄像机采样范围。其次,我们在第二阶段提出了姿态转换方法。它将确保MVDiffusion提供准确的视图指导。因此,ShowRoom3D使得生成的房间具有改善的结构完整性,从任何视角都有增强的清晰度,减少内容重复,并且在不同视角之间具有更高的一致性。大量实验证明,我们的方法在用户研究方面明显优于最先进的方法。
语义图像合成,即从用户提供的语义标签地图生成图像,是一项重要的有条件图像生成任务,因为它允许控制生成图像的内容和空间布局。尽管扩散模型推动了生成图像建模的最新技术,但其推理过程的迭代性质使其在计算上具有挑战性。其他方法,如生成对抗网络(GANs),更有效率,因为它们只需要进行一次前向传递即可生成图像,但在大型和多样化数据集上图像质量往往会受到影响。在这项工作中,我们提出了一种新类别的GAN鉴别器,用于语义图像合成,通过利用预先针对图像分类等任务进行预训练的特征骨干网络生成高度逼真的图像。我们还引入了一种新的生成器架构,具有更好的上下文建模,并使用交叉注意力将噪声注入潜在变量,从而生成更多样化的图像。我们的模型,命名为DP-SIMS,在ADE-20K、COCO-Stuff和Cityscapes数据集上以图像质量和与输入标签地图的一致性方面取得了最新的成果,超越了最近的扩散模型,同时推理过程所需的计算量减少了两个数量级。
目前在人类头部建模方面的进展使得可以通过神经表示来生成看起来合理的3D头部模型。然而,构建完整的、具有明确控制动画的高保真头部模型仍然是一个问题。此外,基于部分观测(例如来自深度传感器的观测)来完成头部几何结构,同时保留细节,对于现有方法来说通常是有问题的。我们引入了一个生成模型,用于在一个关节化的3DMM之上生成详细的3D头部网格,这样可以同时实现显式动画和高细节保留。我们的方法经过两个阶段的训练。首先,我们将一个参数化头部模型与最近引入的NPHM数据集中准确的3D头部扫描的每个网格进行配准,得到估计的位移,并将这些位移烘烤到手工制作的UV布局中。其次,我们训练一个StyleGAN模型,以便对位移的UV映射进行泛化。参数化模型的分解和高质量的顶点位移使我们能够对模型进行动画化并在语义上进行修改。我们展示了无条件生成的结果,并将其拟合到完整或部分观测中。项目页面可在https://seva100.github.io/headcraft找到。
视频视图合成允许从任意视角和时间点创建视觉上吸引人的帧,提供沉浸式的观看体验。神经辐射场,特别是最初为静态场景开发的NeRF,已经推动了各种视频视图合成方法的产生。然而,视频视图合成的挑战在于运动模糊,这是由于曝光期间物体或摄像机移动而导致的,这会妨碍对清晰时空视图的精确合成。为此,我们提出了一种新颖的用于模糊单目视频的动态去模糊NeRF框架,称为DyBluRF,包括交错射线细化(IRR)阶段和基于运动分解的去模糊(MDD)阶段。我们的DyBluRF是首个针对模糊单目视频进行新颖视图合成的方法。IRR阶段联合重建动态3D场景,并改进不准确的摄像机姿势信息,以对抗从给定模糊帧中提取的不精确姿势信息。MDD阶段是一种新颖的逐步潜在锐射预测(ILSP)方法,通过将潜在锐射分解为全局摄像机运动和局部物体运动分量,用于模糊单目视频帧。大量实验结果表明,我们的DyBluRF在质量和数量上优于最近的最先进方法。我们的项目页面包括源代码和预训练模型,可在https://kaist-viclab.github.io/dyblurf-site/公开获取。