每日精选AI研究论文及翻译
我们设计了一种名为FasterViT的新型混合CNN-ViT神经网络系列,重点关注计算机视觉(CV)应用中的高图像吞吐量。FasterViT结合了CNN中快速局部表示学习的优势和ViT中的全局建模特性。我们引入了一种名为Hierarchical Attention(HAT)的新方法,将具有二次复杂度的全局自注意力分解为具有降低计算成本的多级注意力。我们受益于高效的基于窗口的自注意力。每个窗口都可以访问专用的载体标记,这些标记参与局部和全局表示学习。在高层次上,全局自注意力实现了以较低成本实现跨窗口通信。FasterViT在准确性与图像吞吐量方面实现了SOTA Pareto前沿。我们已经在各种CV任务上广泛验证了其有效性,包括分类、目标检测和分割。我们还展示了HAT可以作为现有网络的即插即用模块并增强它们。我们进一步展示,对于高分辨率图像,与竞争对手相比,性能更快更准确。代码可在https://github.com/NVlabs/FasterViT获取。
训练算法在每个深度学习流程中都是至关重要的部分。改进训练算法以加快各种工作负载的训练速度(例如,更好的更新规则、调整协议、学习率计划或数据选择方案)可以节省时间、节省计算资源,并导致更好、更准确的模型。不幸的是,作为一个社区,我们目前无法可靠地识别训练算法的改进,甚至无法确定最先进的训练算法。在这项工作中,通过具体实验,我们认为加快训练进展需要解决经验比较训练算法面临的三个基本挑战的新基准:(1)如何确定何时训练完成并精确测量训练时间,(2)如何处理测量对精确工作负载细节的敏感性,以及(3)如何公平地比较需要超参数调整的算法。为了解决这些挑战,我们引入了一个新的、有竞争力的、基于时间的结果基准,使用固定硬件运行多个工作负载,AlgoPerf:训练算法基准。我们的基准包括一组工作负载变体,可以检测到比当前广泛使用的方法更能适应工作负载变化的基准提交。最后,我们评估了使用各种优化器构建的基线提交,这些优化器代表了当前的实践,以及最近在文献中受到关注的其他优化器。这些基线结果共同证明了我们基准的可行性,显示了方法之间存在非平凡差距,并为未来基准提交设定了一个临时的最先进水平,以便尝试超越。
大型文本到图像扩散模型在从文本提示生成逼真图像方面具有令人印象深刻的能力。如何有效地引导或控制这些强大模型以执行不同的下游任务成为一个重要的开放问题。为了解决这一挑战,我们引入了一种原则性的微调方法——正交微调(OFT),用于使文本到图像扩散模型适应下游任务。与现有方法不同,OFT 可以明确地保留表征单位超球面上神经元成对关系的超球面能量。我们发现,这一特性对于保持文本到图像扩散模型的语义生成能力至关重要。为了提高微调稳定性,我们进一步提出了约束正交微调(COFT),它对超球面施加了额外的半径约束。具体而言,我们考虑了两个重要的微调文本到图像任务:主体驱动生成,目标是在给定主体的几幅图像和文本提示的情况下生成特定主体的图像,以及可控生成,目标是使模型接收额外的控制信号。我们凭经验证明,我们的OFT框架在生成质量和收敛速度方面优于现有方法。
现有的大型语言模型(LLMs)由于输入长度限制,只能接受固定大小的输入,这阻碍了它们利用过去输入中丰富的长上下文信息。为了解决这个问题,我们提出了一个框架,即增强长期记忆的语言模型(LongMem),它使LLMs能够记忆长期历史。我们设计了一个新颖的解耦网络架构,原始骨干LLM被冻结为记忆编码器,而自适应残差侧网络被设计为记忆检索器和阅读器。这种解耦的记忆设计可以轻松缓存和更新长期过去上下文以进行记忆检索,而不会受到记忆陈旧的影响。通过记忆增强适应训练,LongMem可以记忆长期过去上下文并将长期记忆用于语言建模。所提出的记忆检索模块可以处理其记忆库中的无限长度上下文,从而使各种下游任务受益。通常,LongMem可以将长格式记忆扩展到65k个标记,因此可以将许多额外的演示示例作为长格式记忆进行上下文学习。实验表明,我们的方法在具有挑战性的长上下文建模基准ChapterBreak上优于强大的长上下文模型,并在记忆增强上下文学习方面相比LLMs取得了显著改进。结果表明,所提出的方法有助于语言模型记忆和利用长格式内容。我们的代码已在https://aka.ms/LongMem上开源。
我们提出了Face0,这是一种新颖的方法,可以在样本时间内立即将文本到图像生成模型与面部进行条件设置,而无需任何优化过程,如微调或反演。我们通过将包含的面部嵌入与带注释图像的数据集相结合,并在增强后的数据集上训练图像生成模型来实现。一旦训练完成,我们的系统在推断时与基础基础模型实际上是相同的,因此能够在几秒钟内生成图像,只需提供用户提供的面部图像和提示。我们的方法取得了令人满意的结果,非常简单,极快,并为基础模型提供了新的功能,如通过文本或直接操作输入面部嵌入来控制生成的图像。此外,当使用固定的随机向量而不是来自用户提供图像的面部嵌入时,我们的方法基本上解决了跨图像一致性字符生成的问题。最后,虽然需要进一步研究,但我们希望我们的方法,将模型的文本偏见与其对面部的偏见分离开来,可能是未来文本到图像模型中减轻偏见的一步。
我们介绍了Cap3D,这是一种用于为3D对象生成描述性文本的自动化方法。该方法利用了来自图像字幕、图像文本对齐和LLM的预训练模型,以 consolideate 从3D资产的多个视图中的字幕,完全避开了手动注释的耗时和昂贵过程。我们将Cap3D 应用于最近引入的大规模3D数据集Objaverse,生成了660k个3D-文本对。我们的评估使用了来自同一数据集的41k个人类注释,表明Cap3D在质量、成本和速度方面均超过了人工撰写的描述。通过有效的提示工程,Cap3D在从ABO数据集收集的17k个注释中,在生成几何描述方面与人类表现相媲美。最后,我们在Cap3D和人类字幕上对Text-to-3D模型进行微调,并展示Cap3D的表现优于最先进技术,包括Point-E、Shape-E和DreamFusion。
语言模型已成功用于对自然信号(如图像、语音和音乐)进行建模。这些模型的关键组成部分是高质量的神经压缩模型,能够将高维自然信号压缩为较低维度的离散标记。为此,我们引入了一种高保真度的通用神经音频压缩算法,将44.1千赫音频以仅8kbps带宽的速率压缩约90倍为标记。我们通过将高保真度音频生成的进展与图像领域更好的向量量化技术相结合,以及改进的对抗性和重建损失来实现这一目标。我们使用单一通用模型压缩所有领域(语音、环境、音乐等)的音频,使其广泛适用于所有音频的生成建模。我们与竞争音频压缩算法进行比较,发现我们的方法明显优于它们。我们为每个设计选择提供了彻底的消融分析,以及开源代码和训练好的模型权重。我们希望我们的工作能为高保真度音频建模的下一代奠定基础。
我们在transformer模型中发现了增量学习动态,即训练后权重与初始权重之间的差异会逐渐增加。我们在对角权重矩阵和小初始化的简化假设下严格证明了这一现象的发生。我们的实验证实了这一理论,并且还表明即使在没有简化假设的情况下,这种现象也可能在实践中发生。
对比图像-文本模型,如CLIP,构成许多最先进系统的基础。虽然它们擅长识别常见的通用概念,但在罕见甚至在预训练数据集中不存在的细粒度实体上仍然存在困难。因此,它们成功的关键因素之一是使用大规模策划的预训练数据,旨在在预训练阶段扩展它们可以记忆的概念集。在这项工作中,我们探索了一种将细粒度知识直接编码到模型参数的替代方法:我们改为训练模型从外部存储器中检索这些知识。具体而言,我们建议为现有的视觉-文本模型增加能力,使其能够在推断时从存储器中检索跨模态的信息来优化它们的嵌入,从而极大地提高它们的零样本预测能力。值得注意的是,我们展示可以通过在冻结的CLIP之上使用轻量级、单层的融合Transformer 来实现这一点。我们的实验验证了我们的检索增强对比(RECO)训练在几项具有挑战性的细粒度任务上显著提高了CLIP的性能:例如,在斯坦福汽车数据集上提高了+10.9,在CUB-2011上提高了+10.2,在最近的OVEN基准测试上提高了+7.3。
目前的信息提取方法受OCR错误的限制。它们在形式文件中的印刷文本方面表现良好,但对于无结构的手写文档仍然是一个挑战。将现有模型调整为特定领域的训练数据相当昂贵,原因有两点,1)特定领域文档的可用性有限(如手写处方、实验室笔记等),2)注释变得更加具有挑战性,因为需要特定领域知识来解码晦涩的手写文档图像。在这项工作中,我们专注于使用仅具有弱标记数据从手写处方中提取药物名称这一复杂问题。数据包括图像及其中的药物名称列表,但不包括它们在图像中的位置。我们通过首先从仅有弱标签中识别感兴趣的区域,即药物行,然后注入仅使用合成生成数据学习的特定领域药物语言模型来解决这个问题。与现成的最先进方法相比,我们的方法在从处方中提取药物名称方面表现提高了超过2.5倍。