每日精选AI研究论文及翻译
个性化已成为生成人工智能领域的一个重要方面,使得能够在不同背景和风格中合成个体,同时保持对其身份的高保真度。然而,个性化过程在时间和内存需求方面存在固有挑战。对每个个性化模型进行微调需要大量的GPU时间投资,并且为每个主题存储一个个性化模型在存储容量方面可能要求很高。为了克服这些挑战,我们提出了HyperDreamBooth——一种能够从一个人的单张图像中高效生成一小组个性化权重的超网络。通过将这些权重组合到扩散模型中,再结合快速微调,HyperDreamBooth能够在各种背景和风格中生成一个人的面部,具有高主题细节,同时保留模型对不同风格和语义修改的重要知识。我们的方法在大约20秒内实现了对面部的个性化,比DreamBooth快25倍,比Textual Inversion快125倍,仅使用一张参考图像,同时具有与DreamBooth相同的质量和风格多样性。此外,我们的方法生成的模型比普通DreamBooth模型小10000倍。项目页面:https://hyperdreambooth.github.io
文本到图像(T2I)个性化允许用户通过将自己的视觉概念与自然语言提示相结合来引导创意图像生成过程。最近,基于编码器的技术已经成为T2I个性化的一种新有效方法,减少了对多个图像和长时间训练的需求。然而,大多数现有的编码器仅限于单一类域,这限制了它们处理多样概念的能力。在这项工作中,我们提出了一种领域无关的方法,不需要任何专门的数据集或关于个性化概念的先验信息。我们引入了一种新颖的基于对比的正则化技术,以保持对目标概念特征的高保真度,同时使预测的嵌入保持接近潜在空间的可编辑区域,通过将预测的标记推向其最近的现有CLIP标记。我们的实验结果证明了我们方法的有效性,并展示了学习到的标记比未经正则化模型预测的标记更具语义性。这导致了更好的表示,实现了最先进的性能,同时比先前的方法更灵活。
为视觉叙事生成视频通常是一个繁琐复杂的过程,通常需要现场拍摄或图形动画渲染。为了避开这些挑战,我们的关键思路是利用现有视频片段的丰富资源,通过定制外观合成连贯的叙事视频。我们通过开发一个包含两个功能模块的框架来实现这一目标:(i) 运动结构检索,提供具有由查询文本描述的所需场景或运动背景的视频候选项,以及(ii) 结构引导的文本到视频合成,根据运动结构和文本提示生成与情节对齐的视频。对于第一个模块,我们利用现成的视频检索系统,并提取视频深度作为运动结构。对于第二个模块,我们提出了一个可控视频生成模型,可灵活控制结构和角色。视频是通过遵循结构指导和外观指令来合成的。为确保各个片段之间的视觉一致性,我们提出了一种有效的概念个性化方法,允许通过文本提示指定所需的角色身份。大量实验证明,我们的方法在各种现有基线上具有显著优势。
在本文中,我们提出了一种新颖的方法,用于提高大规模预训练语言模型(LLMs)生成输出的质量和一致性。自一致性已被证明是一种有效的方法,适用于具有固定答案的提示,选择获得最高票数的答案。在本文中,我们引入了一个通用的自一致性框架,扩展了其适用范围,超越了具有固定答案的问题。通过大量模拟,我们证明了我们的方法能够从候选集中稳定地恢复出最优或接近最优的生成结果。我们还提出了轻量级无参数相似性函数,即使没有访问令牌对数概率,也能在代码生成、自动形式化和摘要任务中显示出显著且一致的改进。我们的方法几乎不增加计算开销,无需辅助重新排序模型或对现有模型进行修改。