每日精选AI研究论文及翻译
大规模文本到图像模型,包括稳定扩散,能够生成高保真度的逼真肖像图像。有一个专门研究个性化这些模型的活跃领域,旨在使用提供的参考图像集合合成特定主题或风格。然而,尽管这些个性化方法产生了可信的结果,但它们往往生成的图像缺乏逼真度,尚未达到商业可行水平。这在肖像图像生成中尤为明显,因为人脸中的任何不自然瑕疵都很容易被察觉,这是由于我们内在的人类偏见。为了解决这个问题,我们引入了MagiCapture,一种个性化方法,用于整合主题和风格概念,仅使用少量主题和风格参考图像生成高分辨率肖像图像。例如,给定一些随机自拍照,我们经过微调的模型可以生成特定风格的高质量肖像图像,如护照照片或侧面照。这个任务的主要挑战在于合成概念缺乏真实标准,导致最终输出质量降低,并且源主题的身份发生变化。为了解决这些问题,我们提出了一种新颖的关注重新聚焦损失,结合辅助先验,两者都有助于在这种弱监督学习环境中进行稳健学习。我们的流程还包括额外的后处理步骤,以确保生成高度逼真的输出。MagiCapture在定量和定性评估中均优于其他基线,并且也可以推广到其他非人类对象。
我们探讨了大型语言模型在代码优化中的新应用。我们展示了一个从头开始训练的包含70亿参数的Transformer模型,用于优化LLVM汇编以减小代码大小。该模型接受未经优化的汇编作为输入,并输出一系列最佳优化程序的编译器选项。在训练过程中,我们要求模型预测优化前后的指令计数以及优化后的代码本身。这些辅助学习任务显著提高了模型的优化性能,并增强了模型的理解深度。 我们在大量测试程序上进行评估。我们的方法在减少指令计数方面比编译器提高了3.0%,胜过了需要数千次编译的两种最先进基线。此外,该模型表现出惊人的强大代码推理能力,91%的时间生成可编译代码,并在70%的时间内完美模拟编译器的输出。
长期存在的新视角合成问题有许多应用,尤其在体育转播中。特别是对足球比赛动作的逼真新视角合成对广播行业具有巨大的吸引力。然而,目前只有少数几种工业解决方案被提出,甚至更少能够实现合成重播的接近广播质量。除了在比赛场地周围设置多个静态摄像头外,最佳专有系统几乎没有透露任何关于其内部运作的信息。利用多个静态摄像头来完成这样的任务在文献中确实很少被探讨,因为缺乏公共数据集:即在重建大规模、主要静态环境中,存在小型、快速移动元素的挑战。最近,神经辐射场的出现在许多新视角合成应用中取得了惊人的进展,利用深度学习原理在最具挑战性的环境中产生逼真的结果。在这项工作中,我们调查了基于动态神经辐射场(即旨在重建一般动态内容的神经模型)的任务解决方案的可行性。我们构建了合成足球环境,并对其进行多次实验,识别有助于使用动态神经辐射场重建足球场景的关键组件。我们表明,尽管这种方法无法完全满足目标应用的质量要求,但它提出了通向成本效益高、自动化解决方案的有希望途径。我们还公开提供了我们的工作数据集和代码,旨在鼓励研究社区进一步努力,致力于动态足球场景的新视角合成任务。有关代码、数据和视频结果,请访问https://soccernerfs.isach.be。
改善语言模型与人类偏好的对齐仍然是一个活跃的研究挑战。先前的方法主要利用强化学习从人类反馈中学习(RLHF),通过在线RL方法,如近端策略优化(PPO)。最近,离线方法,如序列可能性校准(SLiC)和直接偏好优化(DPO),作为有吸引力的替代方案出现,提供了在稳定性和可扩展性方面的改进,同时保持竞争性能。SLiC使用从经过监督微调(SFT)策略中采样的序列对来优化其损失函数,而DPO直接根据偏好数据优化语言模型,无需单独的奖励模型。然而,目标最优策略的最大似然估计器(MLE)需要从该策略中采样的带标签偏好对。DPO缺乏奖励模型限制了其从最优策略中采样偏好对的能力,而SLiC仅限于从SFT策略中采样偏好对。为了解决这些限制,我们引入了一种名为统计拒绝采样优化(RSO)的新方法,旨在利用拒绝采样从目标最优策略中获取偏好数据,从而更准确地估计最优策略。我们还提出了一个统一框架,从偏好建模的角度增强了SLiC和DPO中使用的损失函数。通过在三个不同任务上进行广泛实验,我们展示了RSO在大型语言模型(LLM)和人类评分者评估中始终优于SLiC和DPO。
最近在大规模文本到图像模型方面取得了显著进展,取得了卓越的成就,在艺术领域找到了各种应用。然而,仅凭文本提示来表达艺术作品的独特特征(如笔触、色调或构图)可能会受到口头描述固有限制的限制。为此,我们引入了DreamStyler,这是一个专为艺术图像合成而设计的新框架,精通文本到图像合成和风格迁移。DreamStyler通过具有上下文感知的文本提示优化多阶段文本嵌入,从而产生突出的图像质量。此外,通过内容和风格指导,DreamStyler表现出灵活性,以适应各种风格参考。实验结果表明,在多种情景下,它展现出卓越的性能,表明在艺术产品创作中具有潜在的前景。
我们的目标是仅使用文本描述来创建具有头发和配饰的逼真三维面部化身。尽管这一挑战引起了相当大的关注,但现有方法要么缺乏逼真性,要么产生不真实的形状,要么不支持编辑,例如修改发型。我们认为现有方法受限于采用单一建模方法,使用单一表示来表现头部、面部、头发和配饰。我们观察到,例如头发和面部具有非常不同的结构特性,适合采用不同的表示方法。基于这一观察,我们利用一个组合模型生成化身,其中头部、面部和上半身用传统的三维网格表示,而头发、服装和配饰则用神经辐射场(NeRF)表示。基于模型的网格表示为面部区域提供了强大的几何先验,提高了逼真度,同时使得可以编辑人物外观。通过使用NeRF来表示其余组件,我们的方法能够对具有复杂几何和外观的部分进行建模和合成,例如卷曲的头发和蓬松的围巾。我们的新系统可以根据文本描述合成这些高质量的组合化身。实验结果表明,我们的方法,即文本引导的组合化身生成与编辑(TECA),产生的化身比最近的方法更逼真,同时由于其组合性质而具有可编辑性。例如,我们的TECA实现了化身之间组合特征(如发型、围巾和其他配饰)的无缝转移。这种能力支持虚拟试穿等应用。
我们研究从单个图像推断树状结构表示以用于物体着色。先前的研究通常使用参数化或测量表示来建模着色,这既不易解释也不易编辑。我们提出使用阴影树表示,结合基本着色节点和合成方法来分解物体表面着色。阴影树表示使得不熟悉物理着色过程的初学者能够以高效且直观的方式编辑物体着色。推断阴影树的一个主要挑战在于推断问题涉及离散树结构和树节点的连续参数。我们提出了一种混合方法来解决这个问题。我们引入自回归推断模型来生成树结构和节点参数的粗略估计,然后通过优化算法对推断的阴影树进行微调。我们展示了对合成图像、捕获的反射、真实图像以及非现实矢量图的实验,从而支持后续应用,如材质编辑、矢量化着色和重照。项目网站:https://chen-geng.com/inv-shade-trees