每日精选AI研究论文及翻译
我们提出时间向量,这是一种简单的工具,用于定制语言模型以适应新的时间段。时间向量是通过在单个时间段(例如,一年或一个月)的数据上微调语言模型而创建的,然后减去原始预训练模型的权重。正如我们的实验所显示的那样,这个向量在权重空间中指定了一个方向,可以提高该时间段文本的性能。专门针对相邻时间段的时间向量似乎在流形中更接近。利用这种结构,我们在时间向量之间插值,诱导出在介于和未来时间段上表现更好的新模型,而无需进行额外的训练。我们展示了我们的发现在不同任务、领域、模型规模和时间尺度上的一致性。我们的结果表明,时间被编码在微调模型的权重空间中。
最近在文本引导的图像修复方面取得的进展,基于文本到图像扩散模型的空前成功,导致了异常逼真和视觉上可信的结果。然而,目前的文本到图像修复模型仍有显著的改进潜力,特别是在更好地将修复区域与用户提示对齐以及进行高分辨率修复方面。因此,在本文中,我们介绍了HD-Painter,这是一种完全无需训练的方法,能够准确地遵循提示并一致地扩展到高分辨率图像修复。为此,我们设计了Prompt-Aware Introverted Attention(PAIntA)层,通过提示信息增强自注意力分数,从而产生更好的文本对齐生成结果。为了进一步提高提示的连贯性,我们引入了Reweighting Attention Score Guidance(RASG)机制,将一种事后采样策略无缝集成到DDIM的一般形式中,以防止分布外的潜在偏移。此外,HD-Painter通过引入一种针对修复的专门超分辨技术,允许扩展到更大的尺度,能够完成高达2K分辨率的图像中缺失区域的修复。我们的实验表明,HD-Painter在质量和数量上均超越了现有的最先进方法,实现了惊人的生成准确度提高,为61.4% vs 51.9%。我们将在以下网址公开提供代码:https://github.com/Picsart-AI-Research/HD-Painter
最近在文本到三维任务中的最新进展利用微调的文本到图像扩散模型生成多视角图像,然后进行 NeRF 重建。然而,现有的监督微调(SFT)扩散模型仍然存在多视角不一致性和由此产生的 NeRF 瑕疵。尽管使用 SFT 进行更长时间的训练可以提高一致性,但也会导致分布转移,从而降低多样性和逼真细节。我们认为多视角扩散模型的 SFT 类似于 LLM 对齐流程中的指导微调阶段,并且可以从 RL 微调(RLFT)方法中受益。基本上,RLFT 方法通过使用其自身的输出优化模型,超越其 SFT 数据分布,有效地减轻分布转移。为此,我们引入 Carve3D,这是一种与多视角重建一致性(MRC)度量结合的 RLFT 方法,以改善多视角扩散模型的一致性。为了计算一组多视角图像上的 MRC,我们将其与在相同视角处重建的 NeRF 的相应渲染进行比较。我们通过在受控不一致性水平下进行的大量实验验证了 MRC 的稳健性。我们改进了基本的 RLFT 算法以稳定训练过程,减少分布转移,并确定缩放规律。通过定性和定量实验以及用户研究,我们展示了 Carve3D 相较于更长的 SFT 具有改进的多视角一致性、更优质的 NeRF 重建质量以及较小的分布转移。项目网页:https://desaixie.github.io/carve-3d。
我们介绍了ShowRoom3D,这是一种从文本生成高质量3D房间场景的三阶段方法。先前使用2D扩散先验来优化神经辐射场以生成房间规模场景的方法显示出了不尽人意的质量。这主要归因于2D先验缺乏3D意识和在训练方法上的约束。在本文中,我们利用了一种3D扩散先验,MVDiffusion,来优化3D房间规模场景。我们的贡献有两个方面。首先,我们提出了一个渐进式视图选择过程来优化NeRF。这涉及将训练过程分为三个阶段,逐渐扩大摄像机采样范围。其次,我们在第二阶段提出了姿态转换方法。它将确保MVDiffusion提供准确的视图指导。因此,ShowRoom3D使得生成的房间具有改善的结构完整性,从任何视角都有增强的清晰度,减少内容重复,并且在不同视角之间具有更高的一致性。大量实验证明,我们的方法在用户研究方面明显优于最先进的方法。
目前在人类头部建模方面的进展使得可以通过神经表示来生成看起来合理的3D头部模型。然而,构建完整的、具有明确控制动画的高保真头部模型仍然是一个问题。此外,基于部分观测(例如来自深度传感器的观测)来完成头部几何结构,同时保留细节,对于现有方法来说通常是有问题的。我们引入了一个生成模型,用于在一个关节化的3DMM之上生成详细的3D头部网格,这样可以同时实现显式动画和高细节保留。我们的方法经过两个阶段的训练。首先,我们将一个参数化头部模型与最近引入的NPHM数据集中准确的3D头部扫描的每个网格进行配准,得到估计的位移,并将这些位移烘烤到手工制作的UV布局中。其次,我们训练一个StyleGAN模型,以便对位移的UV映射进行泛化。参数化模型的分解和高质量的顶点位移使我们能够对模型进行动画化并在语义上进行修改。我们展示了无条件生成的结果,并将其拟合到完整或部分观测中。项目页面可在https://seva100.github.io/headcraft找到。