每日精选AI研究论文及翻译
现代Transformer中昂贵的自注意力层需要与序列长度成二次关系的内存和计算。现有的近似方法通常表现不佳,无法在实践中获得显著的加速。在这里,我们提出SwitchHead - 一种新颖的方法,可以减少计算和内存需求,并实现挂钟加速,同时在与具有相同参数预算的基准Transformer相匹配的语言建模性能。SwitchHead使用专家混合(MoE)层进行值和输出投影,并且比标准Transformer需要的注意力矩阵少4到8倍。我们的新型注意力还可以与MoE MLP层相结合,从而产生高效的完全MoE“SwitchAll”Transformer模型。我们的代码是公开的。
尽管基于扩散的视频生成取得了快速进展,现有模型的推断结果仍然表现出令人不满意的时间一致性和不自然的动态。本文深入探讨了视频扩散模型的噪声初始化,并发现了导致推断质量不佳的隐含训练-推断差距。我们的关键发现是:1)推断时刻的初始潜变量的空间-时间频率分布与训练时 intrinsically 不同,2)去噪过程受初始噪声的低频分量显著影响。受这些观察的启发,我们提出了一种简洁而有效的推断采样策略,名为 FreeInit,显著改善了扩散模型生成的视频的时间一致性。通过在推断过程中迭代地优化初始潜变量的空间-时间低频分量,FreeInit 能够弥补训练和推断之间的初始化差距,从而有效改善生成结果的主体外观和时间一致性。大量实验证明,FreeInit 能够持续提升各种文本到视频生成模型的生成结果,而无需额外训练。
随着大型语言模型的最近成功,视觉语言模型(VLMs)取得了快速进展。人们已经在视觉指导调整方面付出了越来越多的努力,以扩展LLM以接受视觉输入,但缺乏对视觉语言预训练过程的深入研究,即模型学习如何在两种模态上进行联合建模。在这项工作中,我们通过逐步可控的比较,研究了VLM预训练的设计选项,通过将LLM朝向VLM的方式进行增强。我们提出了三个主要发现:(1)在预训练期间冻结LLM可以实现体面的零-shot性能,但缺乏上下文学习能力,这需要解冻LLM;(2)交错的预训练数据是有益的,而仅有图像-文本对并不是最佳选择;(3)在指导微调期间,重新混合仅文本指导数据到图像-文本数据不仅可以弥补仅文本任务的退化,还可以提高VLM任务的准确性。通过增强的预训练配方,我们构建了VILA,一个视觉语言模型系列,始终在主要基准测试中表现优于最先进的模型,例如LLaVA-1.5,而无需花哨的技巧。多模态预训练还有助于揭示VILA的吸引人特性,包括多图像推理、增强的上下文学习和更好的世界知识。
扩散模型取得了卓越的图像生成质量,超越了先前的生成模型。然而,与生成对抗网络(GANs)相比,扩散模型的一个显著局限性在于它们在两个图像样本之间平滑插值的困难,这是由于其高度非结构化的潜在空间所致。这种平滑插值是引人入胜的,因为它自然地作为图像变形任务的解决方案,具有许多应用。在这项工作中,我们提出了DiffMorpher,这是第一个利用扩散模型实现平滑自然图像插值的方法。我们的关键思想是通过分别将两个LoRA拟合到两个图像中,捕捉这两个图像的语义,并在LoRA参数和潜在噪声之间进行插值,以确保平滑的语义过渡,从而自动出现对应关系,无需注释。此外,我们提出了一种注意力插值和注入技术以及一种新的采样计划,以进一步增强连续图像之间的平滑性。大量实验证明,DiffMorpher在各种对象类别上实现了明显更好的图像变形效果,弥合了扩散模型与GANs之间的一个关键功能差距。
最近的方法,如ControlNet,为用户提供了对文本到图像(T2I)扩散模型进行精细空间控制的能力。然而,必须为每种空间条件、模型架构和检查点训练辅助模块,这使它们与人类设计师在内容创建过程中希望传达给AI模型的多样意图和偏好相冲突。在这项工作中,我们提出了FreeControl,这是一种无需训练的可控T2I生成方法,支持同时多种条件、架构和检查点。FreeControl设计了结构指导,以促进结构与指导图像的对齐,以及外观指导,以实现使用相同种子生成的图像之间外观共享。大量定性和定量实验表明,FreeControl在各种预训练T2I模型上表现出优越性能。特别是,FreeControl实现了方便的无需训练控制,涵盖了许多不同的架构和检查点,允许挑战性的输入条件,大多数现有无需训练方法无法胜任,并且在合成质量上与基于训练的方法具有竞争力。
对大型语言模型(LLMs)进行评估对于评估其性能并减轻潜在安全风险至关重要。在本文中,我们介绍了PromptBench,这是一个用于评估LLMs的统一库。它包括几个关键组件,研究人员可以轻松使用和扩展:提示构建、提示工程、数据集和模型加载、对抗性提示攻击、动态评估协议和分析工具。PromptBench旨在成为一个开放、通用和灵活的代码库,用于研究目的,可以促进原创研究,创建新的基准测试,部署下游应用程序和设计新的评估协议。该代码可在以下网址获得:https://github.com/microsoft/promptbench,并将持续得到支持。
我们调查了预训练基础模型在机器人领域的应用。传统的机器人深度学习模型是在针对特定任务定制的小数据集上训练的,这限制了它们在不同应用中的适应性。相比之下,基础模型是在互联网规模数据上预训练的,似乎具有更优越的泛化能力,并且在某些情况下展现出发现训练数据中不存在的问题的零样本解决方案的能力。基础模型可能具有增强机器人自主堆栈各个组件能力的潜力,从感知到决策制定和控制。例如,大型语言模型可以生成代码或提供常识推理,而视觉-语言模型可以实现开放词汇的视觉识别。然而,仍然存在重要的开放性研究挑战,特别是围绕机器人相关训练数据的稀缺性、安全保证和不确定性量化,以及实时执行。在这项调查中,我们研究了最近使用或构建基础模型来解决机器人问题的论文。我们探讨基础模型如何有助于改进机器人在感知、决策制定和控制领域的能力。我们讨论了阻碍基础模型在机器人自主性中的采用的挑战,并提供了未来发展的机会和潜在途径。本文对应的GitHub项目(初步发布。我们致力于进一步增强和更新这项工作,以确保其质量和相关性)可以在此处找到:https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
由于大型语言模型(LLMs)的规模庞大,直接应用传统的压缩方法变得不切实际。即使是最小的梯度更新也会带来计算需求,尤其是在消费级硬件上面临挑战。本文介绍了一种基于降阶建模的参数化和实用LLMs压缩的创新方法,其中包括在特征空间内进行低秩分解并在权重空间内重新参数化。值得注意的是,这种压缩技术以逐层方式运作,无需GPU设备,并能够在严格的内存和时间限制下压缩十亿规模的模型。我们的方法通过利用矩阵分解在模型压缩方面取得了重大进展,与当前主流的结构化剪枝方法相比展现出更优越的效果。
最近的研究在将对齐技术应用于增强大型语言模型(LLMs)的实用性和无害性方面取得了重大进展,以符合人类意图。在本文中,我们主张对于诚实性而言,对齐的重要性在于确保LLMs在缺乏知识时能主动拒绝回答问题,同时又不过于保守。然而,对于诚实性的对齐的一个关键方面涉及识别LLMs知识的界限,这远非易事。这一挑战需要在度量开发、基准创建和训练方法方面提供全面的解决方案。在本文中,我们首先通过确立精确的问题定义,并借鉴《论语》的启示来定义“诚实性”,以此作为发展有效衡量LLMs诚实性的度量标准的基石,通过量化对齐后的进展。此外,我们引入了一个灵活的训练框架,进一步通过几种强调诚实性而不牺牲其他任务表现的高效微调技术来具体实现。我们广泛的实验显示,这些对齐模型在诚实性方面表现出显著提升,如我们提出的度量标准所示。我们开源了大量资源,以促进未来研究,包括面向诚实性对齐的模型、诚实性对齐的训练和评估数据集、概念词汇表,以及所有相关源代码,网址为https://github.com/GAIR-NLP/alignment-for-honesty。
我们提出了FIND,一个用于对齐基础模型嵌入的通用接口。如预告图所示,一个轻量级的Transformer接口,无需调整任何基础模型的权重,就足以实现统一的图像(分割)和数据集级(检索)理解。所提出的接口具有以下有利特性:(1)通用性。适用于跨越检索、分割等各种任务,在相同的架构和权重下。 (2)可原型化。通过原型化注意力掩模和嵌入类型,不同任务能够被实现。 (3)可扩展。所提出的接口适应新任务和新模型。 (4)可交错。借助多任务多模态训练的好处,所提出的接口创建了一个交错共享的嵌入空间。鉴于交错的嵌入空间,我们引入了FIND-Bench,为COCO数据集引入了新的训练和评估注释,以进行交错分割和检索。我们的方法在FIND-Bench上实现了最先进的性能,并在标准检索和分割设置上取得了竞争性能。训练、评估和演示代码以及数据集已发布在https://github.com/UX-Decoder/FIND。
尽管神经渲染在场景重建和新视角合成方面取得了令人瞩目的进展,但它严重依赖精确预先计算的摄像机姿态。为放宽这一约束,已经做出了多项努力,以训练无需预处理摄像机姿态的神经辐射场(NeRFs)。然而,NeRFs的隐式表示提供了额外挑战,即同时优化3D结构和摄像机姿态。另一方面,最近提出的3D高斯飞溅提供了新的机会,因为它具有显式的点云表示。本文利用显式几何表示和输入视频流的连续性,执行新视角合成而无需任何SfM预处理。我们按顺序处理输入帧,并通过逐帧增长3D高斯集合,而无需预先计算摄像机姿态。我们的方法在大运动变化下的视角合成和摄像机姿态估计方面明显优于先前的方法。我们的项目页面是https://oasisyang.github.io/colmap-free-3dgs
一致性模型(CMs)已显示出在高效且高质量地创建视觉内容方面的潜力。然而,如何向预训练的CMs添加新的条件控制尚未被探索。在本技术报告中,我们考虑了为CMs添加类似ControlNet的条件控制的替代策略,并提出了三个重要发现。1)针对扩散模型(DMs)训练的ControlNet可以直接应用于CMs以进行高级语义控制,但在低级细节和逼真度控制方面存在困难。2)CMs作为一类独立的生成模型,可以基于此,使用宋等人提出的一致性训练从头开始训练ControlNet。3)通过一致性训练可以联合优化轻量级适配器,使其在多种条件下快速转移基于DMs的ControlNet到CMs。我们研究了这三种解决方案在各种条件控制下的效果,包括边缘、深度、人体姿势、低分辨率图像以及带有文本到图像潜在一致性模型的遮罩图像。
我们引入了对比激活添加(Contrastive Activation Addition,CAA)这一创新方法,用于通过在前向传递过程中修改激活来引导语言模型。CAA通过计算“转向向量”来实现,该向量是通过对特定行为(例如事实性与臆想性回应)的正负示例之间的残差流激活差异进行平均而得到的。在推理过程中,在用户提示之后的所有标记位置,将这些转向向量以正负系数的形式相加,从而精确控制目标行为的程度。我们在Llama 2 Chat上使用多项选择行为问题数据集和开放式生成任务评估了CAA的有效性。我们证明CAA显著改变了模型行为,优于微调和少样本提示等传统方法,并且对模型能力的影响最小。此外,通过采用各种激活空间解释方法,我们深入了解了CAA的机制。CAA不仅能准确引导模型输出,还揭示了大型语言模型(LLMs)中高级概念的表示方式。
在多模态大型语言模型(MLLMs)中,视觉投影器在连接预训练视觉编码器与LLMs方面发挥着关键作用,实现了深刻的视觉理解,同时利用了LLMs的强大能力。尽管视觉投影器的重要性不言而喻,但研究相对较少。在这项研究中,我们首先确定了两个关键的投影器属性:(i)灵活性,能够管理视觉标记的数量,对MLLMs的整体效率至关重要;(ii)保留来自视觉特征的局部上下文,对空间理解至关重要。基于这些发现,我们提出了一种新颖的投影器设计,既具有灵活性又增强了局部性,有效地满足了这两个理想属性。此外,我们提出了全面的策略,以有效利用多个和多方面的指导数据集。通过大量实验,我们研究了各种设计选择的影响。最后,我们提出的MLLM模型Honeybee,在各种基准测试中显著优于先前的最先进方法,包括MME、MMBench、SEED-Bench和LLaVA-Bench,实现了显著更高的效率。代码和模型可在https://github.com/kakaobrain/honeybee 上获得。
最近,在文本到视频生成领域取得了许多进展,最先进的模型能够生成高质量、逼真的视频。然而,这些模型缺乏用户交互控制和生成视频的能力,这可能会开启新的应用领域。作为实现这一目标的第一步,我们着手解决了为扩散式视频生成模型赋予交互式时空控制能力的问题。为此,我们从最近在分割文献中的进展中汲取灵感,提出了一种新颖的时空遮罩注意力模块 - Peekaboo。这个模块是一个无需训练、无推理开销的附加组件,可用于现成的视频生成模型,实现时空控制。我们还提出了一个用于交互式视频生成任务的评估基准。通过广泛的定性和定量评估,我们确认Peekaboo实现了视频生成的控制,甚至在mIoU上获得了高达3.8倍的增益,超过了基准模型。
在机器学习中,针对分布转移的泛化能力至关重要,即部署条件与训练场景不同,特别是在气候建模、生物医学和自动驾驶等领域。基于其广泛的预训练和任务多样性而备受瞩目的基础模型的出现,引发了人们对其适应分布转移能力的增加兴趣。GPT-4V(ision)作为最先进的公开获取的多模态基础模型,在异常检测、视频理解、图像生成和医学诊断等各个领域都有广泛应用。然而,它对数据分布的稳健性仍然鲜为人知。为填补这一空白,本研究对GPT-4V在动态环境中的适应性和泛化能力进行了严格评估,并与CLIP和LLaVA等知名模型进行了基准比较。我们深入探讨了GPT-4V在自然、医学和分子领域跨越13个不同数据集的零样本泛化能力。我们进一步研究了其对受控数据扰动的适应性,并检验了上下文学习作为增强其适应性的工具的有效性。我们的研究结果勾勒出了GPT-4V在分布转移中的能力边界,阐明了其在各种场景下的优势和局限性。重要的是,这项研究有助于我们了解AI基础模型如何对抗分布转移,为我们提供了关于它们适应性和稳健性的重要见解。代码公开获取链接为https://github.com/jameszhou-gl/gpt-4v-distribution-shift。
扩散Transformer 最近展现出在生成高质量3D点云方面的显著效果。然而,训练基于体素的扩散模型以获得高分辨率的3D体素仍然成本过高,这是由于注意力算子的立方复杂度,这种复杂度源于体素的额外维度。受3D相对于2D的固有冗余性的启发,我们提出了FastDiT-3D,这是一种专为高效3D点云生成量身定制的新型掩蔽扩散Transformer,大大降低了训练成本。具体来说,我们从掩蔽自编码器中汲取灵感,动态地在经过掩蔽的体素化点云上进行去噪处理。我们还提出了一种新颖的体素感知掩蔽策略,以自适应地聚合来自体素化点云的背景/前景信息。我们的方法在接近99%的极端掩蔽比率下实现了最先进的性能。此外,为了改善多类别3D生成,我们在3D扩散模型中引入了专家混合(MoE)。每个类别可以学习具有不同专家的不同扩散路径,缓解梯度冲突。在ShapeNet数据集上的实验结果表明,我们的方法实现了最先进的高保真度和多样化3D点云生成性能。我们的FastDiT-3D 在生成128分辨率体素点云时,仅使用原始训练成本的6.5%,提高了1-最近邻准确度和覆盖度指标。
决策支持系统成功的关键因素之一是准确建模用户偏好。心理学研究表明,用户经常在引导过程中形成自己的偏好,突显了系统与用户互动在开发个性化系统中的关键作用。本文介绍了一种新颖的方法,将大型语言模型(LLMs)与约束编程相结合,以促进交互式决策支持。我们通过会议安排这一日常耗时活动为例,研究了这种混合框架。我们进行了三项研究来评估这一新颖框架,包括一项日记研究(n=64)以描述上下文调度偏好,对系统性能进行定量评估,以及与原型系统进行的用户研究(n=10)。我们的工作突出了混合LLM和优化方法在迭代偏好引导和设计考虑方面的潜力,以构建支持人机协作决策过程的系统。