每日精选AI研究论文及翻译
最近大型语言模型(LLMs)的进展导致了智能代理的产生,这些代理能够执行复杂任务。本文介绍了一种基于新颖LLM的多模态代理框架,旨在操作智能手机应用程序。我们的框架使代理能够通过简化的动作空间操作智能手机应用程序,模仿人类的交互,如点击和滑动。这种新颖方法绕过了对系统后端访问的需求,从而扩大了其在各种应用程序中的适用性。我们代理功能的核心是其创新性学习方法。代理通过自主探索或观察人类演示来学习如何导航和使用新应用程序。这一过程生成了一个知识库,代理可用于执行跨不同应用程序的复杂任务。为了展示我们代理的实用性,我们在10个不同应用程序中的50个任务上进行了广泛测试,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具。结果证实了我们代理在处理各种高级任务方面的熟练程度。
本文介绍了Paint3D,这是一个新颖的由粗到细的生成框架,能够在文本或图像输入的条件下为未纹理化的3D网格生成高分辨率、无光照且多样化的2K UV纹理贴图。所解决的关键挑战是生成高质量纹理,而不包含嵌入的光照信息,这使得纹理可以在现代图形管线中重新照明或重新编辑。为实现这一目标,我们的方法首先利用预训练的深度感知2D扩散模型生成视角条件图像,并进行多视角纹理融合,生成初始粗糙纹理贴图。然而,由于2D模型无法完全表示3D形状并禁用光照效果,粗糙纹理贴图呈现出不完整区域和光照伪影。为解决这一问题,我们训练了专门用于形状感知细化不完整区域和去除光照伪影的独立UV修补和UVHD扩散模型。通过这一由粗到细的过程,Paint3D能够生成保持语义一致性的高质量2K UV纹理,同时无光照,显著推进了纹理化3D对象的最新技术水平。
最近个性化文本到图像(T2I)模型的最新进展已经彻底改变了内容创作,使非专家能够生成具有独特风格的令人惊叹的图像。虽然有前景,但通过文本为这些个性化图像添加逼真的动作在保留独特风格、高保真细节和实现文本控制的运动方面存在重大挑战。在本文中,我们提出了PIA,一种个性化图像动画生成器,在与条件图像对齐、通过文本实现运动控制以及与各种个性化T2I模型兼容而无需特定调整方面表现出色。为实现这些目标,PIA基于一个基础T2I模型,配备经过良好训练的时间对齐层,使得任何个性化T2I模型都能无缝转换为图像动画模型。PIA的一个关键组成部分是引入条件模块,该模块利用条件帧和帧间关联作为输入,通过关联提示指导个别帧合成中的外观信息传递,从而在潜在空间中减轻外观相关图像对齐的挑战,并更加专注于与运动相关指导的对齐。
语义图像合成,即从用户提供的语义标签地图生成图像,是一项重要的有条件图像生成任务,因为它允许控制生成图像的内容和空间布局。尽管扩散模型推动了生成图像建模的最新技术,但其推理过程的迭代性质使其在计算上具有挑战性。其他方法,如生成对抗网络(GANs),更有效率,因为它们只需要进行一次前向传递即可生成图像,但在大型和多样化数据集上图像质量往往会受到影响。在这项工作中,我们提出了一种新类别的GAN鉴别器,用于语义图像合成,通过利用预先针对图像分类等任务进行预训练的特征骨干网络生成高度逼真的图像。我们还引入了一种新的生成器架构,具有更好的上下文建模,并使用交叉注意力将噪声注入潜在变量,从而生成更多样化的图像。我们的模型,命名为DP-SIMS,在ADE-20K、COCO-Stuff和Cityscapes数据集上以图像质量和与输入标签地图的一致性方面取得了最新的成果,超越了最近的扩散模型,同时推理过程所需的计算量减少了两个数量级。
视频视图合成允许从任意视角和时间点创建视觉上吸引人的帧,提供沉浸式的观看体验。神经辐射场,特别是最初为静态场景开发的NeRF,已经推动了各种视频视图合成方法的产生。然而,视频视图合成的挑战在于运动模糊,这是由于曝光期间物体或摄像机移动而导致的,这会妨碍对清晰时空视图的精确合成。为此,我们提出了一种新颖的用于模糊单目视频的动态去模糊NeRF框架,称为DyBluRF,包括交错射线细化(IRR)阶段和基于运动分解的去模糊(MDD)阶段。我们的DyBluRF是首个针对模糊单目视频进行新颖视图合成的方法。IRR阶段联合重建动态3D场景,并改进不准确的摄像机姿势信息,以对抗从给定模糊帧中提取的不精确姿势信息。MDD阶段是一种新颖的逐步潜在锐射预测(ILSP)方法,通过将潜在锐射分解为全局摄像机运动和局部物体运动分量,用于模糊单目视频帧。大量实验结果表明,我们的DyBluRF在质量和数量上优于最近的最先进方法。我们的项目页面包括源代码和预训练模型,可在https://kaist-viclab.github.io/dyblurf-site/公开获取。