每日精选AI研究论文及翻译
基于Transformer的语言模型将浮点运算(FLOPs)均匀分布于输入序列中。本文展示了一种新方法,即Transformer能够学习动态地将FLOPs(或计算资源)分配给序列中的特定位置,从而在模型深度的不同层级上优化序列计算资源的分配。我们的方法通过限制每一层中能参与自注意力和多层感知机(MLP)计算的token数量(k)来确保总计算预算。具体处理哪些token由网络通过top-k路由机制决定。由于k值是预先设定的,这一过程使用的是静态计算图,其张量大小已知,与其它条件计算技术不同。尽管如此,由于k个token的身份是动态变化的,该方法能够在时间和模型深度维度上非均匀地分配FLOPs。因此,计算总支出是完全可预测的,但在token级别上是动态且上下文敏感的。采用这种方式训练的模型不仅能动态分配计算资源,而且效率极高。这些模型在同等FLOPs和训练时间下,性能与基准模型相当,但在每次前向传播中所需的FLOPs大幅减少,且在训练后采样时速度可提升高达50%。
我们提出了视觉自回归建模(Visual AutoRegressive modeling, VAR),这是一种新一代的范式,它将图像上的自回归学习重新定义为从粗到细的“下一尺度预测”或“下一分辨率预测”,与标准的逐行扫描“下一标记预测”方法有所不同。这种简单直观的策略使得自回归(AR)变压器能够快速学习视觉分布并具有良好的泛化能力:VAR首次使得AR模型在图像生成方面超越了扩散变压器。在ImageNet 256x256基准测试中,VAR显著提升了AR基线,将Frechet inception距离(FID)从18.65降至1.80,inception分数(IS)从80.4提升至356.4,推理速度大约快了20倍。实证结果还证实,VAR在图像质量、推理速度、数据效率和可扩展性等多个维度上均优于扩散变压器(DiT)。扩展VAR模型显示出与大型语言模型(LLMs)类似的幂律缩放规律,线性相关系数接近-0.998,提供了有力证据。VAR在下游任务中还展示了零样本泛化能力,包括图像修复、外扩和编辑。这些结果表明,VAR初步具备了LLMs的两个重要特性:缩放定律和零样本任务泛化。我们已公开所有模型和代码,以促进对AR/VAR模型在视觉生成和统一学习方面的探索。
算法推理指的是理解问题背后复杂模式的能力,并将这些模式分解为一系列通向解决方案的推理步骤。这种算法推理的特性对大型语言模型(LLMs)构成了挑战,尽管它们在其他推理任务中展示了令人鼓舞的表现。在此背景下,一些近期研究利用编程语言(如Python)来表达解决特定实例/问题所需的逻辑(例如,思维程序),这得益于其严格且精确的语法。然而,在单次推理调用中即时编写表达正确逻辑的可执行代码并非易事。此外,为某一实例生成的代码无法重用于其他实例,即使它们来自同一任务且可能需要相同的逻辑来解决。本文提出了“思考与执行”这一新颖框架,将语言模型的推理过程分解为两个步骤。(1)在“思考”阶段,我们发现了解决给定任务的所有实例共享的任务级逻辑,并用伪代码表达该逻辑;(2)在“执行”阶段,我们将生成的伪代码进一步定制于每个实例,并模拟代码的执行。通过在七个算法推理任务上的广泛实验,我们展示了“思考与执行”框架的有效性。与执行实例特定推理的几个强基线方法(如CoT和PoT)相比,我们的方法更好地提升了语言模型的推理能力,表明发现任务级逻辑的益处。此外,我们表明,与自然语言相比,伪代码能更好地指导语言模型的推理,尽管它们被训练来遵循自然语言指令。
大型语言模型(LLMs)在掌握人类语言方面表现出色,但在需要数学问题解决的实际应用中仍显不足。尽管已有多种策略和数据集用于提升LLMs的数学能力,但在部署的LLM系统中同时保持和提升语言与数学能力仍是一大挑战。在本研究中,我们针对LLM对齐过程中的反馈学习阶段,定制了自我批判流程。首先,我们从LLM本身训练出一个通用的数学批判模型,以提供反馈信号。接着,我们依次采用拒绝式微调和直接偏好优化,对LLM自身的生成内容进行数据收集。基于ChatGLM3-32B,我们在学术数据集和我们新创的挑战性数据集MathUserEval上进行了一系列实验。结果表明,我们的流程显著提升了LLM的数学问题解决能力,同时仍能提高其语言能力,表现优于规模可能大两倍的LLMs。相关技术已部署至在线服务LLM——ChatGLM(https://chatglm.cn)。相关评估数据集和脚本已发布于https://github.com/THUDM/ChatGLM-Math。
无调优扩散模型在图像个性化和定制领域展现了显著潜力。然而,尽管取得了这一显著进展,当前模型在生成风格一致的图像时仍面临若干复杂挑战。首先,风格概念本身具有不确定性,涵盖颜色、材质、氛围、设计、结构等多个方面。其次,基于反演的方法易导致风格退化,常造成细节丢失。最后,基于适配器的方法往往需要对每张参考图像进行精细的权重调优,以在风格强度和文本可控性之间取得平衡。本文首先探讨了几项引人注目但常被忽视的观察。随后,我们引入了InstantStyle框架,通过实施两项关键策略来应对这些问题:1)一种直接机制,在特征空间内将风格与内容从参考图像中解耦,基于同一空间内的特征可相互加减的假设。2)仅将参考图像特征注入风格特定模块,从而防止风格泄露,并避免繁琐的权重调优,这在参数密集型设计中尤为常见。我们的工作展示了卓越的视觉风格化效果,在风格强度和文本元素可控性之间实现了最佳平衡。我们的代码将发布于https://github.com/InstantStyle/InstantStyle。
扩大模型和数据规模在大型语言模型(LLMs)的演进中取得了显著成功。然而,基于扩散的文本到图像(T2I)模型的扩展规律尚未得到充分探索。如何在降低成本的同时高效扩展模型以提升性能,仍是一个未解之谜。不同的训练设置和昂贵的训练成本使得公平的模型比较变得极为困难。在本研究中,我们通过在扩展去噪骨干网络和训练集上进行广泛而严谨的消融实验,实证研究了基于扩散的T2I模型的扩展特性,包括在多达6亿张图像的数据集上训练从0.4亿到40亿参数不等的扩展型UNet和Transformer变体。在模型扩展方面,我们发现交叉注意力的位置和数量是区分现有UNet设计性能的关键因素。增加Transformer块比增加通道数更能高效提升参数利用率,从而改善文本与图像的对齐效果。我们随后识别出一种高效的UNet变体,其规模比SDXL的UNet小45%,速度快28%。在数据扩展方面,我们表明训练集的质量和多样性比单纯的数据集规模更为重要。增加标注密度和多样性能够提升文本与图像对齐的性能和学习效率。最后,我们提供了扩展函数,用于预测文本与图像对齐性能作为模型规模、计算量和数据集规模函数的表达式。
本研究探讨了在文本条件扩散模型推理过程中交叉注意力的作用。我们发现,交叉注意力的输出在经过少量推理步骤后会收敛到一个固定点。因此,收敛的时间点自然地将整个推理过程划分为两个阶段:初始的语义规划阶段,在此阶段,模型依赖交叉注意力来规划面向文本的视觉语义;以及随后的保真度提升阶段,在此阶段,模型尝试从先前规划的语义中生成图像。令人惊讶的是,在保真度提升阶段忽略文本条件不仅降低了计算复杂度,还保持了模型性能。这产生了一种简单且无需训练的方法,称为TGATE,用于高效生成,该方法在交叉注意力输出收敛后将其缓存,并在剩余的推理步骤中保持固定。我们对MS-COCO验证集的实证研究证实了其有效性。TGATE的源代码可在https://github.com/HaozheLiu-ST/T-GATE获取。
本文通过频率分解实现了高保真、可迁移的NeRF编辑。最近的NeRF编辑流程虽能将2D风格化结果提升至3D场景,却常因模糊效果而受限,且难以捕捉由2D编辑不一致导致的细节结构。我们的关键洞察在于,图像的低频成分在编辑后相较于高频部分更具多视角一致性。此外,外观风格主要体现在低频成分上,而内容细节尤其集中于高频部分。这促使我们在低频成分上进行编辑,从而获得高保真度的编辑场景。同时,编辑操作在低频特征空间中进行,实现了稳定的强度控制和新场景的迁移。在逼真数据集上的全面实验表明,高保真和可迁移的NeRF编辑具有卓越性能。项目页面位于https://aigc3d.github.io/freditor。