每日精选AI研究论文及翻译
大型语言模型是建立在基于Transformer的架构之上,用于处理文本输入。例如,在许多开源实现中,LLaMA脱颖而出。同一个Transformer能否用于处理二维图像?本文通过揭示一种类似LLaMA的视觉Transformer,即Plain形式和Pyramid形式的VisionLLaMA,来回答这个问题,该模型专为此目的而设计。VisionLLaMA是一个统一且通用的建模框架,用于解决大多数视觉任务。我们通过在图像感知和特别是图像生成的许多下游任务中广泛评估其有效性。在许多情况下,VisionLLaMA相较于先前最先进的视觉Transformer取得了显著的提升。我们相信VisionLLaMA可以作为视觉生成和理解的强大新基准模型。我们的代码将在https://github.com/Meituan-AutoML/VisionLLaMA 上发布。
联合嵌入预测架构(JEPA)已经成为一种有前途的自监督方法,通过利用世界模型进行学习。虽然以前仅限于预测输入中缺失的部分,我们探讨了如何将JEPA预测任务推广到更广泛的损坏集。我们引入了图像世界模型,这种方法超越了遮罩图像建模,学会在潜在空间中预测全局光度变换的影响。我们研究了学习高性能IWM的配方,并表明它依赖于三个关键方面:条件、预测难度和容量。此外,我们展示了通过微调适应IWM学习的预测世界模型可以解决各种任务;经过微调的IWM世界模型与以前的自监督方法的性能相匹敌甚至超越。最后,我们表明通过IWM学习可以控制学习表示的抽象级别,学习不变表示,如对比方法,或等变表示,如遮罩图像建模。
本文讨论了在装备了旋转位置嵌入(RoPE)的大型语言模型(LLMs)中,面临着训练短、测试长(TSTL)场景的挑战,即在较短序列上预训练的模型在更长序列中的分布外(OOD)标记位置方面遇到困难的问题。我们引入了共振RoPE,这是一种新颖的方法,旨在通过优化RoPE特征的插值,特别是针对OOD位置,来缩小TSTL场景中的泛化差距,显著提高模型性能,而无需额外的在线计算成本。此外,我们提出了PosGen,这是一个新的合成基准,专门设计用于在TSTL场景中进行细粒度行为分析,旨在将在长上下文中生成标记的难度不断增加与识别新标记位置的挑战相隔离。我们在合成任务上的实验表明,在应用共振RoPE后,Transformers更好地且更稳健地识别OOD位置。我们广泛的LLM实验还表明,在将共振RoPE应用于当前最先进的RoPE缩放方法YaRN后,模型在上游语言建模任务和各种下游长文本应用中表现出更优越的性能。
文本到图像的定制化旨在为给定主题合成文本驱动的图像,最近已经彻底改变了内容创作。现有作品遵循伪词范例,即将给定主题表示为伪词,然后将其与给定文本组合。然而,伪词与给定文本之间固有的纠缠影响范围导致了双重最优悖论,即给定主题的相似性和给定文本的可控性不能同时达到最佳。我们提出 RealCustom,首次通过精确将主题影响限制在相关部分来解开相似性和可控性,通过逐渐将真实文本词从其一般内涵缩小到具体主题,并利用其交叉注意力来区分相关性。具体而言,RealCustom引入了一种新颖的“训练-推理”解耦框架:(1)在训练期间,RealCustom通过一种新颖的自适应评分模块学习视觉条件与原始文本条件之间的一般对齐,以自适应调节影响数量;(2)在推理期间,提出了一种新颖的自适应遮罩引导策略,以迭代更新给定主题的影响范围和影响数量,逐渐缩小生成真实文本词的范围。全面的实验表明 RealCustom 在开放领域具有卓越的实时定制能力,首次实现了给定主题的前所未有的相似性和给定文本的可控性。项目页面为 https://corleone-huang.github.io/realcustom/。
激活修补(Activation Patching)是一种直接计算行为因果归因于模型组件的方法。然而,要全面应用此方法需要进行一次扫描,成本随模型组件数量线性增长,这对于最先进的大型语言模型(LLMs)来说可能成本过高。我们研究了归因修补(Attribution Patching,AtP),这是一种快速基于梯度的激活修补近似方法,并发现了两类AtP的失效模式,导致显著的假阴性。我们提出了AtP的变体称为AtP*,通过两项改进来解决这些失效模式,同时保持可扩展性。我们首次系统研究了AtP及其他更快速激活修补方法,并展示了AtP明显优于所有其他研究方法,而AtP*则提供了进一步显著的改进。最后,我们提供了一种方法来限制AtP*估计的剩余假阴性的概率。