每日精选AI研究论文及翻译
我们介绍了Kandinsky 3.0,这是一个基于潜在扩散的大规模文本到图像生成模型,延续了一系列文本到图像的Kandinsky模型,并反映了我们在实现更高质量和真实感图像生成方面的进展。与之前的Kandinsky 2.x版本相比,Kandinsky 3.0利用了两倍大的U-Net骨干网络,十倍大的文本编码器,并移除了扩散映射。我们描述了模型的架构、数据收集过程、训练技术以及用户交互的生产系统。我们专注于关键组件,这些组件是我们通过大量实验确定的,对提高我们模型质量具有最显著影响的。通过我们的并排比较,Kandinsky在文本理解方面变得更好,并在特定领域表现更佳。项目页面:https://ai-forever.github.io/Kandinsky-3
在文本转语音(TTS)合成中,扩散模型已经取得了令人期待的生成质量。然而,由于预定义的数据到噪声扩散过程,它们的先验分布受限于嘈杂的表示,提供了很少有关生成目标的信息。在这项工作中,我们提出了一种新颖的TTS系统,Bridge-TTS,首次尝试用干净且确定性的先验替换已建立的基于扩散的TTS方法中的嘈杂高斯先验,这提供了目标的强结构信息。具体来说,我们利用从文本输入获得的潜在表示作为我们的先验,并在其与地面真实的梅尔频谱图之间建立一个完全可追踪的薛定谔桥,导致数据到数据的过程。此外,我们公式的可追踪性和灵活性使我们能够在实验中研究设计空间,如噪声时间表,以及开发随机和确定性采样器。在LJ-Speech数据集上的实验结果展示了我们的方法在合成质量和采样效率方面的有效性,明显优于我们的扩散对应物Grad-TTS在50步/1000步合成和强大的快速TTS模型在少步骤场景中。项目页面:https://bridge-tts.github.io/
对比语言-图像预训练(CLIP)在跨领域任务中从图像中提取有价值的内容信息起着至关重要的作用。它对齐文本和视觉模态以理解整个图像,包括所有细节,甚至那些与特定任务无关的细节。然而,为了更好地理解和控制编辑图像,关注特定感兴趣区域变得至关重要,这些区域可以由人类或感知模型指示为点、蒙版或框。为了满足这些要求,我们引入了Alpha-CLIP,这是CLIP的增强版本,具有辅助的 alpha 通道,用于建议关注的区域,并通过构建数百万个 RGBA 区域-文本对进行微调。Alpha-CLIP 不仅保留了 CLIP 的视觉识别能力,还能精确控制图像内容的强调。它在各种任务中展现出有效性,包括但不限于开放世界识别、多模态大型语言模型和有条件的 2D/3D 生成。它具有成为图像相关任务的多功能工具的潜力。
代码提供了一个通用的句法结构,用于构建复杂程序并在与代码解释器配对时执行精确计算 — 我们假设语言模型(LMs)可以利用编写代码来改进“思维链”推理,不仅适用于逻辑和算术任务,还适用于语言任务(尤其是那些混合了逻辑和算术的任务)。例如,考虑提示一个LM编写代码来计算它在一篇文章中检测到讽刺的次数:LM可能会在编写一个可由解释器执行的“detect_sarcasm(string)”实现时遇到困难(处理边缘情况将是不可逾越的)。然而,如果LM不仅用于编写代码,还用于有选择地“模拟”解释器,通过生成“detect_sarcasm(string)”和其他代码行的预期输出(例如,解释器无法编译的内容),它们仍可能生成一个有效的解决方案。在这项工作中,我们提出了“代码链”(CoT),这是一个简单但出乎意料地有效的扩展,可改进LM基于代码的推理。关键思想是鼓励LM将程序中的语言子任务格式化为灵活的伪代码,以便编译器可以明确捕捉未定义行为,并将其交给LM进行模拟(作为“LMulator”)。实验证明,“代码链”在各种基准测试中优于“思维链”和其他基准;在BIG-Bench Hard上,“代码链”达到了84%,比“思维链”提高了12%。CoT可以很好地适用于大型和小型模型,并通过“以代码思考”扩大了LM能够正确回答的推理问题范围。项目网页:https://chain-of-code.github.io/。
创建高保真度的3D头像一直是研究的热点,但在轻量级稀疏视图设置下仍然存在巨大挑战。本文提出了高保真度头像建模的高斯头像,由可控的3D高斯模型表示。我们优化中性3D高斯模型和完全学习的基于MLP的变形场,以捕捉复杂表情。这两部分相互促进,因此我们的方法可以在确保表情准确性的同时建模细粒度动态细节。此外,我们设计了一种基于隐式SDF和深度Marching Tetrahedra的几何引导初始化策略,以确保训练过程的稳定性和收敛性。实验证明,我们的方法胜过其他最先进的稀疏视图方法,在2K分辨率下甚至在夸张表情下实现了超高保真度的渲染质量。
视频中的运动主要包括由摄像机移动引起的摄像机运动和由物体移动导致的物体运动。准确控制摄像机和物体运动对于视频生成至关重要。然而,现有研究要么主要关注一种类型的运动,要么未明确区分这两种类型,从而限制了它们的控制能力和多样性。因此,本文提出了MotionCtrl,这是一个统一灵活的视频生成运动控制器,旨在有效独立地控制摄像机和物体运动。MotionCtrl的架构和训练策略经过精心设计,考虑了摄像机运动、物体运动和不完美训练数据的固有属性。与先前的方法相比,MotionCtrl具有三个主要优势:1)它有效独立地控制摄像机运动和物体运动,实现更精细的运动控制,促进两种类型运动的灵活多样组合。2)其运动条件由摄像机姿势和轨迹确定,这些条件与外观无关,最小程度地影响生成视频中物体的外观或形状。3)它是一个相对通用的模型,一旦训练完成,就可以适应各种摄像机姿势和轨迹。进行了大量的定性和定量实验,以展示MotionCtrl相对于现有方法的优越性。
本文对大型语言模型(LLMs)进行了深入分析,重点关注LLaMA,这是自然语言处理中一种知名的开源基础模型。我们设计了多项选择任务来探究LLaMA在高阶任务(如推理和计算)中的内在理解,而非通过其生成性输出来评估LLaMA。我们水平地检查了模型,比较了不同规模,垂直地评估了不同层次。根据设计的探究任务,我们揭示了几个关键且不同寻常的发现:(1)水平方面,增大模型规模几乎无法自动赋予额外知识或计算能力。相反,它可以增强推理能力,特别是在数学问题解决方面,并有助于减少幻觉,但仅限于一定规模阈值之上;(2)在垂直分析中,LLaMA的较低层缺乏实质性的算术和事实知识,展示了逻辑思维、多语言和识别能力,而顶层则拥有大部分计算能力和现实世界知识。
我们最近在照片级逼真人体建模和渲染方面取得了巨大进展。然而,高效地渲染逼真的人体表现并将其整合到光栅化流程中仍然具有挑战性。在本文中,我们提出了HiFi4G,这是一种明确而紧凑的基于高斯的方法,用于从密集镜头素材中渲染高保真度的人体表现。我们的核心思想是将3D高斯表示与非刚性跟踪相结合,实现紧凑且适合压缩的表示。我们首先提出了一个双图机制来获取运动先验,使用粗略变形图进行有效初始化,并使用细粒度高斯图来强制执行后续约束。然后,我们利用具有自适应时空正则化器的4D高斯优化方案,有效平衡非刚性先验和高斯更新。我们还提出了一个伴随的压缩方案,通过残差补偿在各种平台上实现沉浸式体验。它实现了约25倍的大幅压缩率,每帧存储不到2MB。大量实验证明了我们方法的有效性,在优化速度、渲染质量和存储开销方面明显优于现有方法。
我们提出了上下文扩散(Context Diffusion),这是一个基于扩散的框架,使图像生成模型能够从呈现在上下文中的视觉示例中学习。最近的研究致力于针对图像生成的上下文学习,其中提供了一个查询图像以及上下文示例和文本提示。然而,当没有提示时,生成的图像的质量和保真度会下降,表明这些模型无法真正从视觉上下文中学习。为了解决这个问题,我们提出了一个新颖的框架,将视觉上下文的编码与保留查询图像的结构分开。这样可以使模型能够从视觉上下文和文本提示中学习,也可以从它们中的任何一个中学习。此外,我们使我们的模型能够处理少样本设置,以有效地解决多样的上下文学习场景。我们的实验和用户研究表明,与对应的模型相比,上下文扩散在领域内和领域外任务中表现出色,从而在图像质量和保真度上实现了整体的提升。
大型语言模型(LLMs)如ChatGPT因其通用语言理解能力而备受关注,尤其是它们生成高质量文本或计算机代码的能力。对许多专业人士而言,LLMs是一种无价的工具,可以加快工作速度并提高工作质量。在本文中,我们讨论它们在帮助专业数学家方面的潜力。我们首先对所有现代语言模型中使用的Transformer模型进行数学描述。基于最近的研究,我们概述最佳实践和潜在问题,并报告语言模型的数学能力。最后,我们阐明了LLMs改变数学家工作方式的潜力。
基于文本的视频编辑最近引起了相当大的兴趣,可以改变风格或用类似结构的对象进行替换。除此之外,我们展示了形状、大小、位置、运动等属性也可以在视频中进行编辑。我们的关键洞察是,特定内部特征(例如对象的边缘映射或人体姿势)的关键帧变换可以轻松传播到其他帧,以提供生成指导。因此,我们提出了MagicStick,一种可控视频编辑方法,通过利用对提取的内部控制信号的转换来编辑视频属性。具体而言,为了保持外观,我们将预训练的图像扩散模型和ControlNet扩展到时间维度,并训练低秩适应(LORA)层以适应特定场景。然后,在编辑过程中,我们执行反演和编辑框架。不同之处在于,微调的ControlNet被引入到反演和生成中,以利用提出的在反演和编辑的空间注意力图之间进行注意力混合。尽管简洁,我们的方法是第一个展示能够从预训练的文本到图像模型中进行视频属性编辑的方法。我们在统一框架内的许多示例上进行了实验。我们还与具有形状感知的基于文本的编辑和手工制作的运动视频生成进行了比较,展示了我们优于先前作品的优越时间一致性和编辑能力。代码和模型将公开提供。
我们引入了生成插图指导的新任务,即定制化用户需求的视觉指导。我们确定了这一任务独特的期望,并通过一套自动和人工评估指标进行了形式化,旨在衡量生成结果的有效性、一致性和功效。我们结合大型语言模型(LLMs)的强大能力以及强文本到图像生成扩散模型,提出了一种名为StackedDiffusion的简单方法,它可以根据输入的文本生成这种插图指导。生成的模型明显优于基线方法和最先进的多模态LLMs;在30%的情况下,用户甚至更喜欢它而不是人工生成的文章。值得注意的是,它实现了各种新颖且令人兴奋的应用,远远超出了网络上静态文章所能提供的范围,例如根据用户个人情况提供包含中间步骤和图片的个性化指导。
本文介绍了表示条件图像生成(RCG),这是一个简单而有效的图像生成框架,在无类别条件下的图像生成方面树立了新的基准。RCG不依赖于任何人类注释,而是依赖于从图像分布映射而来的经过预训练编码器映射的自监督表示分布。在生成过程中,RCG使用表示扩散模型(RDM)从这种表示分布中进行采样,并利用像素生成器根据采样的表示来生成图像像素。这种设计在生成过程中提供了重要的指导,从而实现了高质量的图像生成。在ImageNet 256×256上进行测试,RCG实现了Frechet Inception Distance(FID)为3.31和Inception Score(IS)为253.4。这些结果不仅显著改进了无类别条件图像生成的最新技术水平,还与当前领先的有类别条件图像生成方法相媲美,弥合了这两个任务之间长期存在的性能差距。代码可在https://github.com/LTH14/rcg找到。
利用预训练的2D大规模生成模型,最近的研究能够从单个野外图像生成高质量的新视图。然而,由于缺乏来自多个视角的信息,这些研究在生成可控新视图时遇到困难。在本文中,我们提出了DreamComposer,这是一个灵活且可扩展的框架,可以通过注入多视角条件来增强现有的视角感知扩散模型。具体而言,DreamComposer首先使用视角感知的3D提升模块从多个视角获取物体的3D表示。然后,它使用多视角特征融合模块从3D表示中渲染目标视图的潜在特征。最后,从多视角输入中提取的目标视图特征被注入到预训练的扩散模型中。实验证明,DreamComposer与最先进的扩散模型兼容,用于零样本新视图合成,进一步增强了它们以生成具有多视角条件的高保真新视图图像,可用于可控的3D物体重建和其他各种应用。
我们介绍了高效单调多头注意力(EMMA),这是一种最先进的同时翻译模型,具有数值稳定且无偏的单调对齐估计。此外,我们提出了改进的训练和推断策略,包括从离线翻译模型同时微调以及减少单调对齐方差。实验结果表明,所提出的模型在西班牙语和英语翻译任务的同时语音转文本翻译中达到了最先进的性能。
从自我中心视角生成人类日常行为的指导性图像是实现高效技能转移的关键步骤。本文介绍了一个新颖的问题 -- 自我中心动作帧生成。其目标是在用户提示问题和捕捉用户环境的输入自我中心图像的条件下合成动作帧。值得注意的是,现有的自我中心数据集缺乏描述动作执行细节的详细注释。此外,基于扩散的图像操作模型无法控制动作在相应自我中心图像像素空间内的状态变化。因此,我们通过视觉指导调整对视觉大型语言模型(VLLM)进行微调,以筛选丰富的动作描述,以解决我们提出的问题。此外,我们提出使用来自VLLM的图像和文本嵌入进行额外调节的Learn EGOcentric(LEGO)动作帧生成。我们在两个自我中心数据集 -- Ego4D 和 Epic-Kitchens 上验证了我们提出的模型。我们的实验显示,与先前的图像操作模型相比,在定量和定性评估方面均取得了显著改进。我们还进行了详细的消融研究和分析,以提供关于我们方法的见解。
神经辐射场提供了最先进的视图合成质量,但渲染速度较慢。一个原因是它们利用体渲染,在渲染时需要每条光线多次采样(和模型查询)。尽管这种表示灵活且易于优化,但大多数现实世界的物体可以更有效地用表面而不是体来建模,每条光线需要的样本要少得多。这一观察结果促使表面表示法(如符号距离函数)取得了相当大的进展,但这些表示法可能难以建模半透明和薄结构。我们提出了一种方法,HybridNeRF,它利用了两种表示法的优势,将大多数物体渲染为表面,同时对(通常)少量具有挑战性的区域进行体建模。我们针对具有挑战性的Eyeful Tower数据集以及其他常用的视图合成数据集评估了HybridNeRF。与最先进的基准线(包括最近的光栅化方法)进行比较时,我们将错误率提高了15-30%,同时实现了虚拟现实分辨率(2Kx2K)的实时帧速率(至少36 FPS)。