每日精选AI研究论文及翻译
在过去几年中,文本到图像扩散模型在能力上取得了显著的进展,实现了从文本提示中合成高质量且多样化的图像。然而,即使是最先进的模型通常也难以精确地遵循所有提示中的指令。这些模型中绝大多数是在由(图像,标题)对组成的数据集上进行训练的,其中图像通常来自网络,而标题则是它们的HTML替代文本。一个著名的例子是LAION数据集,被Stable Diffusion和其他模型使用。在这项工作中,我们观察到这些标题通常质量较低,并认为这显著影响了模型理解文本提示中微妙语义的能力。我们展示通过使用专门的自动字幕模型重新标记语料库,并在重新标记的数据集上训练文本到图像模型,模型在各方面都得到了显著的改进。首先,在整体图像质量方面:例如,FID为14.84,而基线为17.87,根据人类评估,忠实图像生成改善了64.3%。其次,在语义对齐方面,例如语义对象准确率为84.34,而78.90,计数对齐错误为1.32,而1.44,位置对齐为62.42,而57.60。我们分析了重新标记语料库的各种方法,并提供证据表明这种技术,我们称之为RECAP,既减少了训练-推断差异,又为模型提供了更多每个示例的信息,提高了样本效率,并使模型更好地理解标题和图像之间的关系。
我们收集了一个包含知识共享许可(CC)的图像数据集,用它来训练一组开放扩散模型,其质量与稳定扩散2(SD2)相竞争。这项任务面临两个挑战:(1)高分辨率的CC图像缺乏训练文本到图像生成模型所需的标题;(2)CC图像相对稀缺。为了解决这些挑战,我们使用直观的迁移学习技术生成一组与精心筛选的CC图像配对的高质量合成标题。然后,我们开发了一种数据和计算效率高的训练方法,只需LAION-2B数据的3%,就能训练出与现有SD2模型相媲美的质量。这些结果表明,我们有足够数量的CC图像(约7000万张)用于训练高质量模型。我们的训练方法还实施了各种优化,实现了约3倍的训练加速,从而实现快速模型迭代。我们利用这一方法训练了几个高质量的文本到图像模型,我们将其命名为CommonCanvas系列。我们最大的模型在人类评估中实现了与SD2可比的性能,尽管是在我们的CC数据集上训练的,该数据集明显小于LAION,并且使用合成标题进行训练。我们在https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md发布了我们的模型、数据和代码。
我们提出了DreamCraft3D,这是一种分层3D内容生成方法,能够产生高保真度和连贯性的3D物体。我们通过利用2D参考图像来引导几何塑造和纹理增强阶段,来解决这一问题。本研究的核心是解决现有作品遇到的一致性问题。为了塑造呈现连贯性的几何形状,我们通过视角相关扩散模型执行得分蒸馏采样。这种3D先验模型,连同几种训练策略,优先考虑几何一致性,但会牺牲纹理保真度。我们进一步提出了引导得分蒸馏,专门用于增强纹理。我们在场景的增强渲染上训练了一个个性化扩散模型Dreambooth,使其具备对正在优化的场景的3D知识。从这种3D感知扩散先验中蒸馏得分为场景提供了视角一致的指导。值得注意的是,通过交替优化扩散先验和3D场景表示,我们实现了相互增强的改进:优化的3D场景有助于训练特定场景的扩散模型,为3D优化提供日益视角一致的指导。因此,优化是自启动的,并且导致了大幅度的纹理增强。通过在分层生成过程中定制的3D先验,DreamCraft3D生成了具有逼真渲染的连贯3D物体,推动了3D内容生成技术的最新发展。代码可在https://github.com/deepseek-ai/DreamCraft3D找到。
混合专家(MoE)架构通过稀疏路由为大型语言模型(LLMs)的高推理成本提供了一种通用解决方案,带来了更快、更准确的模型,但代价是庞大的参数数量。例如,SwitchTransformer-c2048模型具有1.6万亿参数,需要3.2TB的加速器内存才能高效运行,这使得实际部署具有挑战性且昂贵。在本文中,我们提出了一种解决这一内存问题的解决方案,即一种名为QMoE的新压缩和执行框架。具体而言,QMoE包括一种可扩展算法,可以将万亿参数的MoE精确地压缩到每个参数不到1位的水平,采用与定制GPU解码内核共同设计的专用格式,以促进高效的端到端压缩推理,相对于未压缩的执行,只有轻微的运行时开销。具体而言,QMoE可以将1.6万亿参数的SwitchTransformer-c2048模型压缩到不到160GB(20倍压缩,每个参数0.8位),仅有轻微的精度损失,在单个GPU上不到一天的时间内完成。这使得首次可以在廉价的商品硬件上执行万亿参数模型,例如配备4个NVIDIA A6000或8个NVIDIA 3090 GPU的单服务器,相对于理想未压缩推理,运行时开销不到5%。源代码和压缩模型可在github.com/IST-DASLab/qmoe获得。
本文评估了GPT-4V在视觉理解、语言理解、视觉拼图解决以及深度、热力、视频和音频等其他模态的理解等不同能力。为了评估GPT-4V的表现,我们手动构建了656个测试实例,并对GPT-4V的结果进行了仔细评估。我们的研究结果要点如下: (1) GPT-4V在英文视觉为中心的基准测试中表现出色,但无法识别图像中的简单中文文本;(2) 在回答涉及性别、种族和年龄等敏感特征的问题时,GPT-4V表现出不一致的拒绝行为;(3) GPT-4V在语言理解任务上的表现比GPT-4(API)差,包括一般语言理解基准测试和视觉常识知识评估基准测试;(4) 少样本提示可以提高GPT-4V在视觉理解和语言理解方面的表现;(5) GPT-4V在找出两个相似图像之间的细微差别和解决简单的数学图片拼图方面遇到困难;(6) GPT-4V在类似于图像的视频和热力等模态任务上表现出非平凡的性能。我们的实验结果揭示了GPT-4V的能力和局限性,希望本文能为GPT-4V的应用和研究提供一些启示。
在这项工作中,我们介绍了Wonder3D,一种从单视图图像高效生成高保真纹理网格的新方法。最近基于得分蒸馏采样(SDS)的方法已经显示出从2D扩散先验中恢复3D几何的潜力,但它们通常受到耗时的每个形状优化和不一致几何的困扰。相比之下,某些工作通过快速网络推断直接生成3D信息,但它们的结果通常质量较低且缺乏几何细节。为了全面提高图像到3D任务的质量、一致性和效率,我们提出了一个跨领域扩散模型,生成多视角法线图和相应的彩色图像。为了确保一致性,我们采用了多视角跨领域注意机制,促进视图和模态之间的信息交换。最后,我们介绍了一种几何感知法线融合算法,从多视角的2D表示中提取高质量的表面。我们的广泛评估表明,与先前的工作相比,我们的方法实现了高质量的重建结果、稳健的泛化能力和相当不错的效率。
许多研究人员认为,卷积神经网络在小型或中等规模数据集上表现良好,但在具有 Web 规模数据集访问权限时,无法与视觉Transformer竞争。我们通过评估在JFT-4B上预训练的高性能卷积神经网络架构来挑战这一观点,JFT-4B是一组大型带标签图像数据集,通常用于训练基础模型。我们考虑了预训练计算预算在0.4k到110k TPU-v4核心计算小时之间,并从NFNet模型系列中训练一系列不断加深和加宽的网络。我们观察到留出损失与计算预算之间存在对数-对数缩放规律。在在ImageNet上微调后,NFNet与具有相似计算预算的视觉Transformer的报告性能相匹配。我们最强的微调模型实现了90.4%的Top-1准确率。
我们提出了LLM-FP4,用于将大型语言模型(LLMs)中的权重和激活量化为4位浮点值,采用后训练方式。现有的后训练量化(PTQ)解决方案主要基于整数,并且在比8位更低的位宽下存在困难。与整数量化相比,浮点(FP)量化更加灵活,可以更好地处理长尾或钟形分布,并已成为许多硬件平台的默认选择。FP量化的一个特点是,其性能在很大程度上取决于指数位和剪切范围的选择。在这方面,我们通过寻找最佳量化参数构建了一个强大的FP-PTQ基线。此外,我们观察到激活分布中存在高通道间方差和低通道内方差的模式,增加了激活量化的难度。我们认识到这种模式在设计用于不同任务的变压器模型(如LLMs、BERT和Vision Transformer模型)的光谱中是一致的。为了解决这个问题,我们提出了按通道激活量化,并展示这些额外的缩放因子可以重新参数化为权重的指数偏置,带来可忽略的成本。我们的方法首次可以将LLaMA-13B中的权重和激活量化为仅4位,并在常识零样本推理任务上实现了63.1的平均得分,仅比全精度模型低5.8分,明显优于先前的最先进技术12.7分。代码可在以下网址找到:https://github.com/nbasyl/LLM-FP4。
尽管大型语言模型(LLMs)被广泛应用,但用于训练它们的数据很少被披露。考虑到这些数据的规模之大,高达数万亿个标记,几乎可以肯定其中包含潜在问题文本,如受版权保护的材料、个人可识别信息以及用于广泛报道的参考基准测试数据。然而,我们目前无法知道这些类型的数据包含哪些,以及比例如何。本文研究了预训练数据检测问题:在不知道预训练数据的情况下,给定一段文本和对LLM的黑盒访问权限,我们能否确定模型是否是在提供的文本上进行训练的?为了促进这项研究,我们引入了一个动态基准WIKIMIA,使用在模型训练之前和之后创建的数据来支持金标准检测。我们还提出了一种新的检测方法Min-K% Prob,基于一个简单的假设:一个未见过的示例很可能包含一些在LLM下具有较低概率的离群词,而一个已见过的示例则不太可能包含这种低概率的词。Min-K% Prob可以在不了解预训练语料库或进行任何额外训练的情况下应用,与先前需要在类似于预训练数据的数据上训练参考模型的检测方法有所不同。此外,我们的实验表明,Min-K% Prob在WIKIMIA上比这些先前方法提高了7.4%。我们将Min-K% Prob应用于两个现实场景,即受版权保护书籍检测和受污染的下游示例检测,并发现它是一个始终有效的解决方案。
基于Transformer的大型语言模型(LLMs)是自然语言处理任务中的开创性进展,然而,它们卓越的能力受限于Transformer的预设上下文窗口。位置嵌入(PE)缩放方法虽然有效地将上下文窗口扩展到特定长度,但在其外推能力方面存在明显局限性,或者在上下文窗口内部分性能上有所牺牲。长度外推方法虽然在理论上能够将上下文窗口扩展到超出训练序列长度的范围,但在实际长上下文应用中往往表现不佳。为了解决这些挑战,我们提出了适用于LLMs的连续长度外推(CLEX)方法。我们将PE缩放方法推广为通过长度缩放因子上的常微分方程来建模连续动态,从而克服了目前为特定长度设计的PE缩放方法的限制。此外,通过将动态扩展到超出训练序列长度的期望上下文长度,CLEX在实际任务中展现出了出色的长度外推性能。我们证明,CLEX可以无缝地整合到配备旋转位置嵌入的LLMs中,例如LLaMA和GPT-NeoX,对训练和推断延迟几乎没有影响。实验结果显示,CLEX可以有效地将上下文窗口扩展到超过4倍或接近8倍的训练长度,而性能不会下降。此外,在实际的LongBench基准测试中,我们的模型在4k长度上训练后,与在最高达32k上下文长度训练的最先进开源模型相比表现出竞争力。
保持大型基础模型与最新数据同步是一项固有昂贵的任务。为了避免不断重新训练造成的成本过高,必须持续对这些模型进行训练。这一问题受到缺乏大规模持续学习基准或基准线的影响。我们引入了首个面向视觉-语言模型训练的大规模时间连续(TiC)基准集:TiC-DataCompt、TiC-YFCC 和 TiC-RedCaps,涵盖了跨越9年(2014--2022)的超过127亿个带有时间戳的图像-文本对。我们首先利用我们的基准集策划各种动态评估,以衡量现有模型的时间稳健性。我们展示了 OpenAI 的 CLIP 模型(在2020年之前的数据上训练)在我们精心策划的2021年至2022年的检索任务中,与 OpenCLIP 存储库中更近期训练的模型相比,零样本准确率下降了约8%。然后,我们研究如何高效地在连续时间数据上训练模型。我们证明了一种简单的基于复习的方法,即从上一个检查点继续训练并重播旧数据,与从头开始重新训练相比,可以将计算量减少2.5倍。
TD-MPC是一种基于模型的强化学习(RL)算法,它在学习的隐式(无解码器)世界模型的潜在空间中执行局部轨迹优化。在这项工作中,我们提出了TD-MPC2:对TD-MPC算法的一系列改进。我们展示了TD-MPC2在跨越4个不同任务领域的104个在线RL任务中明显优于基准结果,使用单一一组超参数始终取得强大的结果。我们进一步展示了随着模型和数据规模的增加,代理能力也在增强,并成功训练了一个拥有3.17亿参数的单一代理,可以执行跨多个任务领域、具象化形式和动作空间的80个任务。最后,我们总结了与大型TD-MPC2代理相关的经验教训、机会和风险。在https://nicklashansen.github.io/td-mpc2 上探索视频、模型、数据、代码等内容。
由于移动设备的有限计算能力和存储空间,实时在移动设备上进行新视角图像合成是困难的。在移动设备上使用体积渲染方法,如NeRF及其衍生物,由于体积渲染的高计算成本,不太适用。另一方面,最近神经光场表示方法的进展展示了在移动设备上有希望的实时视角合成结果。神经光场方法学习了从射线表示到像素颜色的直接映射。目前射线表示的选择要么是分层射线采样,要么是Pl\"{u}cker坐标,忽视了经典的光板(双平面)表示,这是在光场视角之间插值的首选表示。在这项工作中,我们发现使用光板表示是学习神经光场的有效表示。更重要的是,这是一个低维射线表示,使我们能够使用特征网格学习4D射线空间,这样训练和渲染速度显著更快。尽管大多数设计用于前视图,我们展示了光板表示可以通过分而治之策略进一步扩展到非前景场景。我们的方法相比先前的光场方法提供了更优质的渲染质量,并实现了在渲染质量和速度之间显著改进的折衷。