每日精选AI研究论文及翻译
扩散模型是图像和视频合成领域进展的主要推动力,但存在推断速度较慢的问题。蒸馏方法,如最近引入的对抗性扩散蒸馏(ADD),旨在将模型从多步推断转变为单步推断,尽管这会导致昂贵且难以优化,因为它依赖于一个固定的预训练的DINOv2鉴别器。我们引入了潜在对抗性扩散蒸馏(LADD),这是一种新颖的蒸馏方法,克服了ADD的局限性。与基于像素的ADD相比,LADD利用了预训练潜在扩散模型的生成特征。这种方法简化了训练过程并增强了性能,实现了高分辨率多方位比例图像合成。我们将LADD应用于稳定扩散3(8B)中,得到了SD3-Turbo,这是一个快速模型,仅使用四个无引导采样步骤即可匹配最先进的文本到图像生成器的性能。此外,我们系统地研究了其扩展行为,并展示了LADD在诸如图像编辑和修复等各种应用中的有效性。
从人类反馈中进行强化学习(RLHF)已被证明是一种有效的方法,可以使预训练的大型语言模型(LLMs)与人类偏好保持一致。但使用RLHF训练模型在计算上是昂贵且整个过程复杂。在这项工作中,我们研究了在使用Hu等人(2021年)引入的参数高效方法低秩适应(LoRA)训练基础模型的RLHF。我们研究了“参数高效强化学习”(PERL)的设置,其中我们使用LoRA进行奖励模型训练和强化学习。我们将PERL与传统的微调(全调整)在包括奖励建模和强化学习的7个基准测试中的各种配置进行比较,其中包括2个新数据集。我们发现,PERL的性能与传统的RLHF设置相当,同时训练速度更快,内存占用更少。这使得RLHF能够保持高性能,同时减少了限制其作为大型语言模型对齐技术的采用的计算负担。我们还发布了两个新的好评/差评偏好数据集:“Taskmaster Coffee”和“Taskmaster Ticketing”,以促进围绕RLHF的研究。
在当今,高效准确地更新存储在大型语言模型(LLMs)中的知识是最紧迫的研究挑战之一。本文提出了Larimar - 一种新颖的、受大脑启发的架构,用于增强LLMs的分布式情节记忆。Larimar的记忆允许对知识进行动态、一次性更新,无需进行计算昂贵的重新训练或微调。在多个事实编辑基准测试上的实验结果表明,Larimar在挑战性的顺序编辑设置中达到了与大多数竞争基线相当的准确性,但在速度上也表现出色 - 根据基础LLM的不同,速度提高了4-10倍,同时由于所提出的架构简单、与LLM无关,因此具有灵活性和通用性。我们进一步提供了用于选择性事实遗忘和输入上下文长度泛化的机制,并展示了它们的有效性。
我们提出了稳定视频3D(SV3D)- 一种潜在视频扩散模型,用于围绕3D对象生成高分辨率的图像到多视角视频。最近关于3D生成的研究提出了技术,用于调整2D生成模型以进行新视角合成(NVS)和3D优化。然而,这些方法存在一些缺点,要么是由于视角有限,要么是由于NVS不一致,从而影响了3D对象生成的性能。在这项工作中,我们提出了SV3D,它调整了图像到视频扩散模型,用于新的多视角合成和3D生成,从而利用了视频模型的泛化和多视角一致性,同时进一步增加了用于NVS的显式相机控制。我们还提出了改进的3D优化技术,以利用SV3D及其NVS输出进行图像到3D生成。在多个数据集上进行的广泛实验结果,包括2D和3D指标以及用户研究,证明了SV3D在NVS和3D重建方面相对于先前工作具有最先进的性能。
借鉴最新的扩散模型在文本到图像生成方面的进展,保留身份的个性化已经在准确捕捉特定身份方面取得了显著进展,仅需一张参考图像。然而,现有方法主要将参考图像整合到文本嵌入空间中,导致图像和文本信息的复杂交织,这给保持身份忠实度和语义一致性带来了挑战。为了解决这一挑战,我们提出Infinite-ID,这是一个用于保留身份的个性化的ID-语义解耦范式。具体而言,我们引入了增强身份的训练,将额外的图像交叉注意力模块纳入其中,以捕获足够的ID信息,同时停用扩散模型的原始文本交叉注意力模块。这确保了图像流忠实地代表了参考图像提供的身份,同时减轻了来自文本输入的干扰。此外,我们引入了一个特征交互机制,将混合注意力模块与AdaIN-mean操作相结合,无缝地融合了这两个流。这种机制不仅增强了身份的忠实度和语义一致性,还能方便地控制生成图像的风格。对原始照片生成和风格图像生成的大量实验结果表明了我们提出的方法的卓越性能。
视觉编码构成了大型多模态模型(LMMs)理解视觉世界的基础。传统LMMs处理固定尺寸和有限分辨率的图像,而最近在这个方向的探索在适应性、效率甚至正确性方面受到限制。在这项工作中,我们首先以GPT-4V和LLaVA-1.5作为代表性示例,揭示了它们的视觉编码策略中根植的系统缺陷。为了解决挑战,我们提出了LLaVA-UHD,一个大型多模态模型,可以高效地感知任何纵横比和高分辨率的图像。LLaVA-UHD包括三个关键组件:(1)图像模块化策略,将原始分辨率图像划分为更小的可变大小片段,以便进行高效和可扩展的编码,(2)一个压缩模块,进一步压缩来自视觉编码器的图像标记,以及(3)一个空间模式,用于组织LLMs的片段标记。全面的实验表明,LLaVA-UHD在9个基准测试上优于使用2-3个数量级更多数据训练的已建立LMMs。值得注意的是,我们基于LLaVA-1.5 336x336构建的模型,仅使用94%的推理计算支持6倍更大(即672x1088)分辨率的图像,并在TextVQA上实现了6.4的准确度提升。此外,该模型可以在学术环境中高效地训练,在8个A100 GPU上仅需23小时(相比LLaVA-1.5的26小时)。我们在https://github.com/thunlp/LLaVA-UHD上公开提供数据和代码。
我们介绍了LightIt,这是一种用于图像生成的显式照明控制方法。最近的生成方法缺乏照明控制,而这对于图像生成的许多艺术方面至关重要,比如设定整体情绪或影视外观。为了克服这些限制,我们建议将生成条件设置为阴影和法线图。我们使用单次反射阴影来建模照明,其中包括投射阴影。我们首先训练一个阴影估计模块,生成一个真实世界图像和阴影对的数据集。然后,我们使用估计的阴影和法线作为输入来训练一个控制网络。我们的方法展示了在许多场景中高质量的图像生成和照明控制。此外,我们使用我们生成的数据集来训练一个保持身份的照明重定向模型,以图像和目标阴影为条件。我们的方法是第一个能够生成具有可控、一致照明的图像,并且与专门的照明重定向最先进方法表现一致。
由于数据有限和计算复杂性较高,开放领域的3D物体合成落后于图像合成。为了弥补这一差距,最近的研究作品探讨了多视角扩散,但往往在3D一致性、视觉质量或效率方面存在不足。本文提出了MVEdit,作为SDEdit的3D对应物,采用祖先采样来联合去噪多视角图像并输出高质量纹理网格。基于现成的2D扩散模型,MVEdit通过无需训练的3D适配器实现了3D一致性,该适配器将最后一个时间步的2D视图提升为连贯的3D表示,然后使用渲染视图来调整下一个时间步的2D视图,同时不影响视觉质量。在仅需2-5分钟的推断时间内,该框架在质量和速度之间实现了比分数蒸馏更好的权衡。MVEdit非常灵活和可扩展,具有广泛的应用,包括文本/图像到3D生成、3D到3D编辑和高质量纹理合成。特别是,评估表明在图像到3D和文本引导纹理生成任务中表现出最先进的性能。此外,我们介绍了一种方法,可以在资源有限的情况下对小型3D数据集上的2D潜在扩散模型进行微调,从而实现快速低分辨率文本到3D的初始化。
大脑活动重建的视觉感知已经取得了巨大进展,但这些方法的实际效用却受到了限制。这是因为这些模型是针对每个受试者独立训练的,每个受试者需要数十小时昂贵的fMRI训练数据才能获得高质量的结果。本研究展示了仅使用1小时fMRI训练数据就能实现高质量重建。我们在7个受试者上预训练我们的模型,然后在新受试者上用少量数据进行微调。我们的新颖功能对齐程序将所有脑数据线性映射到一个共享主体的潜在空间,然后通过一个共享的非线性映射将其映射到CLIP图像空间。然后,我们通过微调Stable Diffusion XL来接受CLIP潜在空间而不是文本作为输入,将其从CLIP空间映射到像素空间。这种方法提高了在有限训练数据情况下跨受试者的泛化能力,并且与单受试者方法相比,实现了最先进的图像检索和重建指标。MindEye2展示了如何能够从一次MRI设施的访问中实现准确的感知重建。所有代码都可以在GitHub上找到。
我们探讨了如何通过引入一种新颖的统一记忆机制来协调几种基础模型(大型语言模型和视觉-语言模型),以解决具有挑战性的视频理解问题,特别是捕捉长视频中的长期时间关系。具体而言,所提出的多模态代理VideoAgent:1)构建了一个结构化记忆,用于存储视频的通用时间事件描述和以对象为中心的跟踪状态;2)针对输入的任务查询,它利用视频段定位和对象记忆查询等工具以及其他视觉基础模型来交互式地解决任务,利用大型语言模型的零-shot工具使用能力。VideoAgent在几个长时间跨度视频理解基准测试中展现出令人印象深刻的性能,相比基线模型,NExT-QA平均提高了6.6%,EgoSchema提高了26.0%,缩小了开源模型和包括Gemini 1.5 Pro在内的私有对手之间的差距。
机器学习(ML)领域的进展得益于扩展神经网络模型。这种扩展得益于工程领域日益英勇的壮举,这是为了适应需要高带宽通信的ML方法,这些方法要求设备之间在并行工作时进行通信。在这项工作中,我们提出了一种共同设计的模块化架构和训练方法,用于ML模型,被称为DIstributed PAth COmposition(DiPaCo)。在训练过程中,DiPaCo通过一组共享模块的路径分配计算。结合受本地SGD启发的优化(DiLoCo),该方法使模块保持同步,通信大大减少。我们的方法促进了在连接质量差且异构的工作节点之间进行训练,设计确保了对工作节点故障和抢占的稳健性。在推断时,每个输入只需要执行一条路径,无需进行任何模型压缩。我们认为这种方法是迈向新的大规模学习范式的第一个原型,这种范式不太同步且更具模块化。我们在广泛使用的C4基准测试上进行的实验表明,对于相同数量的训练步骤但更少的挂钟时间,DiPaCo通过选择256种可能路径之一,每条路径包含1.5亿参数,超过了一个10亿参数的密集变压器语言模型的性能。
神经渲染领域随着生成模型和可微渲染技术的进步取得了显著进展。尽管2D扩散取得了成功,但统一的3D扩散管道仍未确定。本文介绍了一种名为LN3Diff的新框架,以填补这一空白,实现快速、高质量和通用的有条件3D生成。我们的方法利用3D感知架构和变分自动编码器(VAE)将输入图像编码为结构化、紧凑和3D潜空间。这个潜空间由基于变换器的解码器解码为高容量的3D神经场。通过在这个3D感知潜空间上训练扩散模型,我们的方法在ShapeNet上实现了最先进的3D生成性能,并在单眼3D重建和各种数据集上的有条件3D生成中表现出优越性能。此外,它在推理速度方面超越了现有的3D扩散方法,无需每个实例的优化。我们提出的LN3Diff在3D生成建模方面取得了重大进展,并在3D视觉和图形任务中展现了广泛应用的前景。
本文提出了一种利用预训练视频扩散模型构建可扩展的3D生成模型的新范式。在开发基础3D生成模型时的主要障碍是3D数据的有限可用性。与图像、文本或视频不同,3D数据不容易获取,难以获得。这导致与其他类型数据的大量存在数量之间存在显著差距。为解决这一问题,我们提议使用一个经过广泛训练的视频扩散模型作为3D数据的知识源。通过微调解锁其多视角生成能力,我们生成了一个大规模的合成多视角数据集,用于训练前馈3D生成模型。所提出的模型VFusion3D,在近300万个合成多视角数据上训练,可以在几秒钟内从单个图像生成3D资产,并在与当前最先进的前馈3D生成模型相比表现出色,用户超过70%的时间更喜欢我们的结果。