每日精选AI研究论文及翻译
本文介绍了Depth Anything V2。在不追求花哨技术的情况下,我们旨在揭示关键发现,为构建强大的单目深度估计模型铺平道路。值得注意的是,与V1相比,这个版本通过三个关键实践产生了更精细、更稳健的深度预测:1)用合成图像替换所有标记的真实图像,2)扩大我们教师模型的容量,3)通过大规模伪标记的真实图像桥接教授学生模型。与基于稳定扩散的最新模型相比,我们的模型效率显著提高(快速超过10倍),并且更准确。我们提供不同规模的模型(参数范围从25M到1.3B)以支持广泛场景。由于它们强大的泛化能力,我们通过度量深度标签微调它们,获得我们的度量深度模型。除了我们的模型,考虑到当前测试集的有限多样性和频繁噪声,我们构建了一个多功能评估基准,具有精确注释和多样场景,以促进未来研究。
这项工作并未引入新的方法。相反,我们呈现了一个有趣的发现,质疑现代计算机视觉架构中归纳偏差——即局部性的必要性。具体而言,我们发现普通的Transformer可以通过直接将每个像素视为一个标记来运行,并取得高性能的结果。这与Vision Transformer中流行的设计有着显著不同,后者保留了从ConvNets到局部邻域的归纳偏差(例如,通过将每个16x16块视为一个标记)。我们主要展示了像素作为标记在计算机视觉中三个广泛研究的任务中的有效性:用于对象分类的监督学习,通过遮罩自编码的自监督学习,以及使用扩散模型进行图像生成。尽管直接操作单个像素在计算上不太实用,但我们认为社区在设计下一代计算机视觉神经架构时必须意识到这一令人惊讶的知识片段。
Transformer以其简单而有效的架构彻底改变了机器学习。在大规模文本数据集上对Transformer进行预训练,源自互联网,使其在自然语言理解(NLU)任务中实现了无与伦比的泛化能力。然而,当面临需要精确和稳健计算的算法推理任务时,这类语言模型仍然显得脆弱。为了解决这一局限性,我们提出了一种新颖的方法,将Transformer的语言理解能力与基于图神经网络(GNN)的神经算法推理器(NARs)的稳健性相结合。这种NARs被证明在图形式规范下对算法任务具有通用求解器的效果。为了使它们的嵌入对Transformer可访问,我们提出了一种混合架构,采用两阶段训练程序,使语言模型中的标记能够跨越关注来自NAR的节点嵌入。我们在CLRS-Text上评估了我们得到的TransNAR模型,这是CLRS-30基准测试的文本版本,并展示了在算法推理方面,无论在内部还是在分布之外,与仅使用Transformer模型相比的显著增益。
基于互联网规模的视觉-语言数据和多样化机器人演示进行大规模预训练的政策具有改变我们教导机器人新技能的潜力:我们可以通过微调这种视觉-语言-动作(VLA)模型,而不是从头开始训练新行为,从而获得用于视觉运动控制的稳健、通用的政策。然而,广泛采用VLA用于机器人技术方面存在挑战,因为1)现有的VLA主要是封闭的,公众无法访问,2)先前的研究未能探索有效微调VLA以用于新任务的方法,这是采用的关键组成部分。为了解决这些挑战,我们介绍了OpenVLA,这是一个拥有70亿参数的开源VLA,经过多样化的97万真实世界机器人演示训练而成。OpenVLA基于Llama 2语言模型,结合了来自DINOv2和SigLIP的预训练特征的视觉编码器。由于增加的数据多样性和新的模型组件,OpenVLA在通用操作方面表现出色,对于29个任务和多个机器人实体,绝对任务成功率比RT-2-X(550亿)等封闭模型高出16.5%,并且参数数量少7倍。我们进一步展示,我们可以有效地为新设置微调OpenVLA,在涉及多个对象和强语言基础能力的多任务环境中表现出特别强的泛化结果,并且比Diffusion Policy等从头开始的模仿学习方法高出20.4%。我们还探讨了计算效率;作为另一个贡献,我们展示OpenVLA可以通过现代低秩适应方法在消费级GPU上进行微调,并通过量化高效地提供服务,而不会影响下游成功率。最后,我们发布了模型检查点、微调笔记本以及我们的PyTorch代码库,内置支持在Open X-Embodiment数据集上规模训练VLA。
高效地对具有无限上下文长度的序列进行建模一直是一个长期存在的问题。过去的研究要么受到二次计算复杂度的影响,要么在长度泛化方面具有有限的外推能力。在本文中,我们提出了 Samba,这是一个简单的混合架构,它将选择性状态空间模型(SSM)Mamba 与滑动窗口注意力(SWA)逐层结合起来。Samba能够将给定序列有选择性地压缩为循环隐藏状态,同时仍然保持着通过注意力机制精确回忆记忆的能力。我们将 Samba 扩展到了拥有 38 亿参数、32 万亿训练标记的规模,并展示了 Samba 在各种基准测试中明显优于基于纯注意力或 SSM 的最先进模型。当在长度为 4K 的序列上训练时,Samba 可以高效地外推到长度为 256K 的上下文长度,具有完美的记忆回溯,并在长度为 1M 的上下文长度上展现出改进的标记预测。作为一个线性时间序列模型,Samba 在处理长度为 128K 的用户提示时,与具有分组查询注意力的 Transformer 相比,吞吐量提高了 3.73 倍,并在生成 64K 标记且具有无限流式处理时加快了 3.64 倍。Samba 的一个示例实现可在 https://github.com/microsoft/Samba 上公开获取。
本文介绍了通过整合新型多分辨率网络和时间相关层归一化对扩散模型进行创新增强。扩散模型因其在高保真图像生成中的有效性而备受关注。虽然传统方法依赖于卷积U-Net架构,但最近基于Transformer的设计表现出更优越的性能和可扩展性。然而,Transformer架构通过“patchification”对输入数据进行标记化,面临着在处理标记长度时自注意力操作的二次复杂性导致视觉保真度和计算复杂度之间的权衡。较大的patch尺寸可以提高注意力计算效率,但难以捕捉细粒度的视觉细节,导致图像失真。为解决这一挑战,我们提出了将多分辨率网络(DiMR)与扩散模型相结合,该框架跨多个分辨率细化特征,逐渐增强从低到高分辨率的细节。此外,我们引入了时间相关层归一化(TD-LN),这是一种参数高效的方法,将时间相关参数纳入层归一化中,注入时间信息以实现更优越的性能。我们的方法在类别条件的ImageNet生成基准上展示了其有效性,其中DiMR-XL变体胜过先前的扩散模型,在ImageNet 256 x 256上取得了1.70的新的FID分数,在ImageNet 512 x 512上取得了2.89的新的FID分数。项目页面:https://qihao067.github.io/projects/DiMR
大型语言模型(LLMs)展示了出色的推理能力,但仍然容易出现错误,特别是在涉及复杂时间逻辑的时间推理任务中。现有研究探讨了LLM在使用不同数据集和基准测试进行时间推理时的表现。然而,这些研究通常依赖于LLMs在预训练期间可能遇到的真实世界数据,或者采用可能无意中引入事实不一致性的匿名化技术。在这项工作中,我们通过引入专门设计用于评估LLM时间推理能力的新颖合成数据集来解决这些限制。这些数据集中的问题类型的多样性使得可以系统地研究问题结构、大小、问题类型、事实顺序以及其他因素对LLM性能的影响。我们的研究结果为当前LLM在时间推理任务中的优势和劣势提供了宝贵的见解。为了促进这一领域的进一步研究,我们正在开源我们实验中使用的数据集和评估框架:https://huggingface.co/datasets/baharef/ToT。
扩散Transformer(DiT)在图像和视频生成方面表现出色,但由于自注意力的二次复杂度而面临计算挑战。我们提出了DiTFastAttn,一种新颖的后训练压缩方法,以缓解DiT的计算瓶颈。我们在DiT推断过程中确定了注意力计算中的三个关键冗余:1. 空间冗余,即许多注意力头集中在局部信息上;2. 时间冗余,即相邻步骤的注意力输出之间存在高相似性;3. 条件冗余,即条件和无条件推断表现出显著相似性。为了解决这些冗余,我们提出了三种技术:1. 带有残差缓存的窗口注意力,以减少空间冗余;2. 时间相似性降低,以利用步骤之间的相似性;3. 条件冗余消除,在条件生成过程中跳过冗余计算。为了展示DiTFastAttn的有效性,我们将其应用于DiT、PixArt-Sigma用于图像生成任务,以及OpenSora用于视频生成任务。评估结果显示,在图像生成方面,我们的方法可以减少高达88%的FLOPs,并在高分辨率生成时实现高达1.6倍的加速。
人类绘图以促进推理:在解决几何问题时,我们会画辅助线;在地图推理时,我们会标记和圈出重要部分;我们使用草图来扩展思路,减轻我们有限容量的工作记忆。然而,当前的多模态语言模型(LMs)中缺乏这样的行为。目前的思维链和工具使用范式仅将文本作为中间推理步骤。在这项工作中,我们介绍了Sketchpad,这是一个为多模态LMs提供视觉素描板和绘图工具的框架。LM根据自己绘制的视觉工件进行规划和推理。与以往使用文本到图像模型使LMs能够绘图的工作不同,Sketchpad使LMs能够使用线条、方框、标记等进行绘图,这更接近人类的素描方式,更有助于推理。Sketchpad还可以在绘图过程中使用专业的视觉模型(例如,使用目标检测模型绘制边界框,使用分割模型绘制蒙版),以进一步增强视觉感知和推理能力。我们在广泛的数学任务(包括几何、函数、图形和国际象棋)以及复杂的视觉推理任务上进行了实验。Sketchpad在所有任务上都显著提高了性能,相比没有绘图的强基准模型,数学任务平均提升了12.7%,视觉任务提升了8.6%。带有Sketchpad的GPT-4o在所有任务上均创造了新的最先进水平,包括V*Bench(80.3%)、BLINK空间推理(83.9%)和视觉对应(80.8%)。所有代码和数据均在https://visualsketchpad.github.io/。
我们研究了由大量定制扩散模型所覆盖的权重空间。我们通过创建一个包含超过60,000个模型的数据集来填充这个空间,每个模型都是一个基础模型,经过微调以插入不同人的视觉身份。我们将这些权重的基础流形建模为一个子空间,我们称之为权重对权重。我们展示了这个空间的三个直接应用——采样、编辑和反演。首先,由于空间中的每个点对应一个身份,从中采样一组权重会导致一个编码新身份的模型。接下来,我们找到了在这个空间中对应于身份语义编辑的线性方向(例如,添加胡须)。这些编辑在生成的样本中的外观中保持一致。最后,我们展示将单个图像反演到这个空间会重建一个逼真的身份,即使输入图像不在分布范围内(例如,一幅绘画)。我们的结果表明,经过微调的扩散模型的权重空间表现出作为身份可解释潜在空间的特性。
我们介绍了MuirBench,这是一个专注于多模态LLM的强大多图像理解能力的综合基准。MuirBench包括12个不同的多图像任务(例如场景理解、排序),涉及10个多图像关系类别(例如多视角、时间关系)。MuirBench由11,264张图像和2,600个多项选择题组成,是以成对方式创建的,每个标准实例都与一个无法回答的变体配对,二者之间具有最小的语义差异,以便进行可靠评估。在对20个最近的多模态LLM进行评估后,我们的结果显示,即使是表现最好的模型如GPT-4o和Gemini Pro也发现解决MuirBench具有挑战性,准确率分别为68.0%和49.3%。基于单图像训练的开源多模态LLM几乎无法泛化到多图像问题,准确率低于33.3%。这些结果突显了MuirBench的重要性,鼓励社区开发能够超越单个图像的多模态LLM,为未来改进提出潜在途径。
为训练能够有效引导大型语言模型(LLMs)生成与人类偏好一致的高质量响应的奖励模型,高质量的偏好数据集至关重要。随着LLMs变得更强大和更好地对齐,像Open Assistant、HH-RLHF和HelpSteer这样的许可宽松的偏好数据集需要更新以保持对奖励建模的有效性。从专有LLMs(如GPT-4)中提取偏好数据的方法受到模型提供者对商业使用的限制。为了提高生成的响应和属性标记质量,我们发布了HelpSteer2,这是一个许可宽松的偏好数据集(CC-BY-4.0)。利用在HelpSteer2上训练的强大内部基础模型,我们能够在Reward-Bench的主要数据集上实现SOTA得分(92.0%),超越了当前列出的开放和专有模型,截至2024年6月12日。值得注意的是,HelpSteer2仅包含一万个响应对,比现有偏好数据集(如HH-RLHF)少一个数量级,这使其非常适合训练奖励模型。我们的广泛实验表明,使用HelpSteer2训练的奖励模型在对齐LLMs方面是有效的。特别是,我们提出了SteerLM 2.0,这是一种模型对齐方法,可以有效利用我们的奖励模型预测的丰富多属性分数。HelpSteer2可在https://huggingface.co/datasets/nvidia/HelpSteer2获取,代码可在https://github.com/NVIDIA/NeMo-Aligner获取。
多模态大型语言模型(mLLMs)是在大量文本图像数据上训练的。虽然大多数mLLMs仅在类似字幕的数据上进行训练,但Alayrac等人[2022]表明,此外还在交错的文本和图像序列上训练它们可以导致上下文学习能力的出现。然而,他们使用的数据集M3W并非公开,且仅为英文。已经有人尝试复现他们的结果,但发布的数据集仅限于英文。相比之下,当前的多语言和多模态数据集要么仅由类似字幕组成,要么是中等规模或完全私有数据。这限制了针对世界上其他7,000种语言的mLLM研究。因此,我们介绍了mOSCAR,据我们所知,这是第一个从网络中爬取的大规模多语言和多模态文档语料库。它涵盖163种语言,3.15亿个文档,2140亿个标记和12亿张图像。我们仔细进行了一系列的过滤和评估步骤,以确保mOSCAR具有足够的安全性、多样性和良好的质量。我们另外训练了两种类型的多语言模型来证明mOSCAR的好处:(1)一个模型在mOSCAR的子集和字幕数据上训练,(2)一个模型仅在字幕数据上训练。另外在mOSCAR上训练的模型在各种多语言图像文本任务和基准测试中显示出强大的少样本学习性能提升,验证了先前针对仅英文mLLMs的发现。
计算机科学(CS)作为人类智能复杂性的明证,深刻推动了人工智能和现代社会的发展。然而,当前大型语言模型(LLMs)的社区过分关注分析特定基础技能(如数学和代码生成)的基准,忽视了对计算机科学领域的全面评估。为了弥合这一差距,我们引入了CS-Bench,这是第一个专门用于评估LLMs在计算机科学中表现的双语(中英文)基准。CS-Bench包括约5K个精心策划的测试样本,涵盖了计算机科学的4个关键领域中的26个子领域,包括各种任务形式和知识推理的划分。利用CS-Bench,我们对30多个主流LLMs进行了全面评估,揭示了计算机科学表现与模型规模之间的关系。我们还定量分析了现有LLMs失败的原因,并强调了改进方向,包括知识补充和计算机科学特定推理。进一步的跨能力实验显示了LLMs在计算机科学方面的能力与它们在数学和编码方面的能力之间存在很高的相关性。此外,专门从事数学和编码的专家LLMs在几个CS子领域中也表现出色。展望未来,我们设想CS-Bench将成为LLMs在CS领域应用的基石,并在评估LLMs多样推理能力方面开辟新途径。CS-Bench的数据和评估代码可在https://github.com/csbench/csbench 上获取。
当前的多模态和多任务基础模型,如4M或UnifiedIO,展现出令人期待的结果,但实际上,它们的开箱即用能力受限于它们训练的模态和任务数量(通常相对较少),难以接受多样化输入并执行多样化任务。在本文中,我们通过在大量多样化模态和大规模多模态数据集以及文本语料库上进行联合训练,进一步拓展了它们的能力。这包括在几个语义和几何模态上进行训练,使用最新的DINOv2和ImageBind等先进模型的特征图,SAM和4DHumans等专家模型的伪标签,以及一系列新的模态,允许以新颖方式与模型进行交互并引导生成,例如图像元数据或调色板。这个过程中的一个关键步骤是对各种模态进行离散标记化,无论它们是类似图像的、神经网络特征图、向量、结构化数据(如实例分割或人体姿势)还是可表示为文本的数据。通过这一步骤,我们拓展了多模态模型的开箱即用能力,特别展示了训练一个模型来解决至少比现有模型多3倍的任务/模态的可能性,并且在不降低性能的情况下实现。这使得更加精细和可控的多模态生成能力成为可能,并使我们能够研究在多样化数据和目标上训练的模型如何融合为一个统一模型。我们成功将训练规模扩展到一个30亿参数的模型,使用了数十种模态和不同数据集。生成的模型和训练代码在4m.epfl.ch上开源。
最近图像生成领域的进展使得可以从文本条件中生成高质量图像。然而,当面对多模态条件,比如文本结合参考外观时,现有方法往往难以有效平衡多个条件,通常会偏向某一模态而忽视其他模态。为了解决这一挑战,我们引入了EMMA,这是一个新颖的图像生成模型,接受多模态提示,基于最先进的文本到图像(T2I)扩散模型ELLA构建。EMMA通过创新的多模态特征连接器设计,无缝地将额外的模态与文本一起整合,通过特殊的注意机制有效地整合文本和补充模态信息,指导图像生成。通过冻结原始T2I扩散模型中的所有参数,仅调整一些额外层,我们发现一个有趣的现象,即预训练的T2I扩散模型可以秘密接受多模态提示。这一有趣的特性有助于轻松适应不同的现有框架,使EMMA成为一个灵活而有效的工具,用于生成个性化和上下文感知的图像甚至视频。此外,我们引入了一种策略,将学习的EMMA模块组装起来,以同时生成基于多个模态的图像,消除了需要使用混合多模态提示进行额外训练的需求。大量实验表明了EMMA在生成图像时保持高保真度和细节的有效性,展示了其作为先进多模态条件图像生成任务的强大解决方案的潜力。
我们提出构建全模态智能,能够理解任何模态并学习通用表示。具体而言,我们提出了一种可扩展的预训练范式,名为多模态上下文(MiCo),可以在预训练过程中扩展模态数量、数据量以及模型参数。通过MiCo,预训练模型在多模态学习中展现出显著的新能力,这些能力在以下任务上进行了评估:i)对10种不同模态的单模态感知基准测试,ii)25个跨模态理解任务,包括检索、问答、字幕生成,以及iii)18个多模态大型语言模型基准测试。我们的模型建立了37项最新性能的新纪录。希望我们的研究能为全模态智能的发展做出贡献。代码和模型可在 https://github.com/invictus717/MiCo 找到。
训练世界模型的主要方法之一是在序列的输出空间中进行自回归预测,预测下一个元素。在自然语言处理(NLP)中,这体现为大型语言模型(LLMs)预测下一个标记;在计算机视觉(CV)中,这体现为自回归模型预测下一个帧/标记/像素。然而,这种方法在几个方面与人类认知不同。首先,人类对未来的预测会积极影响内部认知过程。其次,人类自然地评估关于未来状态的预测的合理性。基于这种能力,第三,通过评估何时预测足够,人类分配动态时间量来进行预测。这种自适应过程类似于心理学中的系统2思维。所有这些能力对于人类在高级推理和规划方面的成功至关重要。因此,为了解决传统自回归模型缺乏这些类似人类能力的局限性,我们引入了基于能量的世界模型(EBWM)。EBWM涉及训练一个基于能量的模型(EBM)来预测给定上下文和预测未来状态的兼容性。通过这样做,EBWM使模型能够实现所描述的人类认知的所有三个方面。此外,我们开发了一种针对基于能量模型量身定制的传统自回归变压器变种,称为基于能量的变压器(EBT)。我们的结果表明,在CV领域,EBWM比传统自回归变压器更好地随着数据和GPU小时数扩展,并且在NLP领域,EBWM提供了有前途的早期扩展。因此,这种方法为训练未来能够进行系统2思维并智能搜索状态空间的模型打开了一条令人兴奋的道路。
尽管大型语言模型(LLMs)取得了进展,例如GPT-4和Claude等模型,但小规模LLMs,如Llama和Mistral,通常难以生成深入和连贯的对话。本文提出了一种新颖的两步骤粗到细的演员模型,以解决小型LLMs在对话和分析能力方面的固有局限性。我们的方法始于基于策略的粗糙演员,采用了我们称之为“连续最大化”的技术。粗糙演员建立了一个增强的、知识丰富的池,擅长与人类偏好风格在分析和推理方面保持一致。通过RLHF过程,它采用了连续最大化,这是一种动态自适应地扩展输出长度限制的策略,从而实现更详细和分析性内容的生成。随后,精细演员对这些分析内容进行了改进,解决了粗糙演员生成过多冗余信息的问题。我们引入了一种“知识残留合并”方法,对粗糙演员的内容进行了改进,并将其与现有的指导模型合并,以提高质量、正确性,并减少冗余。我们将这种方法应用于流行的Mistral模型,创建了Mistral-C2F,它在11个通用语言任务和MT-Bench对话任务中展现出了卓越的性能,胜过了类似规模的模型,甚至是具有130亿和300亿参数的更大模型。我们的模型显著提高了对话和分析推理能力。
我们提出了一个新颖的任务和基准,用于评估文本到图像(T2I)生成模型产生符合现实生活常识的图像的能力,我们称之为Commonsense-T2I。给定包含相同动作词集合但存在细微差异的两个对抗性文本提示,例如“没有电的灯泡”和“有电的灯泡”,我们评估T2I模型是否能进行视觉常识推理,例如产生符合“灯泡未点亮”与“灯泡已点亮”相应的图像。Commonsense-T2I提出了一个对抗性挑战,提供成对的文本提示以及期望的输出。该数据集由专家精心筛选并注释了细粒度标签,如常识类型和期望输出的可能性,以帮助分析模型行为。我们对各种最先进的T2I模型进行基准测试,令人惊讶地发现,图像合成与真实照片之间仍存在很大差距——即使是DALL-E 3模型在Commonsense-T2I上也只能达到48.92%,而稳定扩散XL模型仅实现24.92%的准确率。我们的实验表明,GPT增强提示无法解决这一挑战,并对可能导致此类不足的原因进行了详细分析。我们希望Commonsense-T2I能够成为T2I常识检查的高质量评估基准,促进现实生活图像生成的进展。
视频生成面临许多独特挑战,超越了图像生成的范畴。时间维度引入了跨帧广泛可能的变化,其中一致性和连续性可能会受到破坏。在这项研究中,我们超越了评估简单动作,并主张生成的视频应该融入新概念的出现以及它们之间的关系转变,就像现实世界的视频随着时间推移一样。为了评估视频生成模型的时间组合性,我们提出了TC-Bench,一个精心设计的文本提示、相应的真实视频和稳健评估指标的基准。这些提示阐明了场景的初始和最终状态,有效减少了帧发展的歧义,并简化了过渡完成的评估。此外,通过收集与提示相对应的现实世界视频,我们将TC-Bench的适用范围从文本条件模型扩展到可以执行生成帧插值的图像条件模型。我们还开发了新的度量标准来衡量生成视频中组件过渡的完整性,这些度量标准与人类判断之间的相关性明显更高。我们全面的实验结果显示,大多数视频生成器实现的组合变化不到20%,突显了未来改进的巨大空间。我们的分析表明,当前的视频生成模型难以解释组合变化的描述,并在不同时间步骤中综合各种组件。
训练单视角大型重建模型(LRMs)的默认策略是遵循完全监督的路径,使用大规模合成3D资产或多视角捕获的数据集。尽管这些资源简化了训练过程,但很难将其扩展到现有数据集之外,并且它们不一定代表物体形状的真实分布。为了解决这些限制,在本文中,我们介绍了Real3D,这是第一个可以使用单视角真实世界图像进行训练的LRM系统。Real3D引入了一种新颖的自我训练框架,可以从现有的合成数据和多样化的单视角真实图像中获益。我们提出了两种无监督损失,使我们能够在像素级和语义级监督LRMs,即使是对于没有地面真实3D或新视角的训练示例。为了进一步提高性能并扩展图像数据,我们开发了一种自动数据筛选方法,从野外图像中收集高质量示例。我们的实验表明,Real3D在包括真实和合成数据以及领域内外形状在内的四种不同评估设置中始终优于先前的工作。代码和模型可在此处找到:https://hwjiang1510.github.io/Real3D/
本文讨论了使用生成式人工智能估计上下文学习(ICL)中的幻觉率。在ICL中,通过给定数据集,条件生成模型(CGM)被要求基于该数据集进行预测。ICL的贝叶斯解释假设CGM正在计算关于潜在参数和数据的未知贝叶斯模型的后验预测分布。从这个角度来看,我们将幻觉定义为在真实潜在参数下概率较低的生成预测。我们开发了一种新方法,该方法接受一个ICL问题,即一个CGM、一个数据集和一个预测问题,并估计CGM生成幻觉的概率。我们的方法只需要从模型生成查询和响应,并评估其响应的对数概率。我们通过使用大型语言模型在合成回归和自然语言ICL任务上对我们的方法进行了实证评估。
基于自回归的Transformer推断极大受益于键-值(KV)缓存,但随着模型大小、批量大小和序列长度的规模增长,可能导致主要的内存瓶颈。我们引入了多层键-值(MLKV)共享,这是一种新颖的方法,将KV共享扩展到Transformer层之间,以减少内存使用量,超出了使用多查询注意力(MQA)和分组查询注意力(GQA)时的可能性。在各种自然语言处理基准测试和推断指标上使用经过训练的Pythia-160M变体进行评估,结果表明MLKV显著降低了内存使用量,几乎没有性能损失,将KV缓存大小降低到MQA的6倍。这些结果突显了MLKV在规模化部署Transformer模型方面的潜力。我们在https://github.com/zaydzuhri/pythia-mlkv 提供了代码。
大型语言模型(LLMs)的快速发展需要强大且具有挑战性的基准。像Chatbot Arena这样的排行榜根据模型回复与人类偏好的一致性对LLMs进行排名。然而,许多任务,如情感智能、创意写作或说服力等,高度主观,通常缺乏人类的普遍一致性。评委可能对什么构成更好的回复存在无法调和的分歧。为了解决在高度主观任务上对LLMs进行排名的挑战,我们提出了一种新颖的基准框架,即语言模型委员会(LMC)。LMC通过民主流程运作:1)通过平等参与制定测试集,2)在委员会成员中进行测试,3)作为一个集体评审评估回复。我们在一个开放式情感智能任务上部署了一个由20个最新LLMs组成的委员会:回应人际困境。我们的结果表明,LMC产生的排名比任何单个LLM评委的排名更具可分离性、稳健性和较少偏见,并且与人类建立的排行榜相比,更符合一致。
视觉问答(VQA)是多模态人工智能中的重要任务,通常用于测试视觉-语言模型理解和推理视觉和文本数据中的知识能力。然而,大多数当前的VQA模型使用的数据集主要集中在英语和少数主要世界语言上,图像通常以西方为中心。尽管最近的努力试图增加VQA数据集中涵盖的语言数量,但在低资源语言方面仍然缺乏多样性。更重要的是,尽管这些数据集通常通过翻译或其他方法扩展其语言范围,但它们通常保持图像不变,导致文化代表性狭窄。为了解决这些限制,我们构建了CVQA,这是一个新的跨文化多语言视觉问答基准,旨在涵盖丰富的语言和文化,我们在数据收集过程中邀请了母语者和文化专家参与。因此,CVQA包括来自四大洲28个国家的具有文化特色的图像和问题,涵盖26种语言和11种文字,提供了总共9k个问题。然后我们在CVQA上对几种多模态大语言模型(MLLMs)进行基准测试,并表明该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为一个评估套件,用于评估多模态模型的文化能力和偏见,并希望能够鼓励更多的研究努力,以增加该领域的文化意识和语言多样性。
我们提出了LRM-Zero,这是一个完全基于合成的3D数据训练的大型重建模型(LRM),实现了高质量的稀疏视角3D重建。LRM-Zero的核心是我们的程序化3D数据集Zeroverse,它是从简单的基本形状自动生成的,具有随机纹理和增强(例如,高度场、布尔差异和线框)。与先前的3D数据集(例如Objaverse)不同,它们通常是由人类捕获或制作以逼真地逼近真实3D数据的情况不同,Zeroverse完全忽略了逼真的全局语义,但在几何和纹理细节方面非常丰富,这些细节在局部上与真实对象相似甚至更为复杂。我们展示了我们的LRM-Zero,利用我们完全合成的Zeroverse进行训练,可以在重建真实世界对象时实现高视觉质量,与在Objaverse上训练的模型相媲美。我们还分析了Zeroverse的几个关键设计选择,这些选择有助于LRM-Zero的能力和训练稳定性。我们的工作表明,在3D视觉中的核心任务之一——3D重建,有可能在不考虑真实世界对象语义的情况下进行处理。Zeroverse的程序化合成代码和交互式可视化可在以下网址找到:https://desaixie.github.io/lrm-zero/。
通俗地说,基于扩散过程的图像生成模型经常被称为展示“幻觉”,即在训练数据中永远不会出现的样本。但这些幻觉从何而来呢?在本文中,我们研究了扩散模型中的一种特定失败模式,我们称之为模式插值。具体来说,我们发现扩散模型会在训练集中的相邻数据模式之间平滑地“插值”,以生成完全超出原始训练分布支持范围的样本;这种现象导致扩散模型生成从未存在于真实数据中的人工成果(即幻觉)。我们系统地研究了这种现象的原因和表现。通过对一维和二维高斯分布的实验,我们展示了扩散模型解码器中不连续的损失景观如何导致一个区域,在该区域中,任何平滑近似都会引起这种幻觉。通过对具有各种形状的人工数据集的实验,我们展示了幻觉如何导致生成从未存在的形状组合。最后,我们展示了扩散模型实际上知道何时超出支持范围并产生幻觉。这通过生成样本朝向最后几个反向采样过程的轨迹具有高方差来体现。通过使用一个简单的度量来捕捉这种方差,我们可以在生成时消除超过95%的幻觉,同时保留96%的支持内样本。我们通过在MNIST和二维高斯数据集上进行实验,展示了这种幻觉(及其消除)对合成数据上递归训练的崩溃(和稳定)的影响。我们在https://github.com/locuslab/diffusion-model-hallucination 上发布了我们的代码。
超低比特率图像压缩是一个具有挑战性和需求量大的课题。随着大型多模型(LMMs)的发展,出现了一种图像-文本-图像的跨模态压缩(CMC)范式。与传统编解码器相比,这种语义级别的压缩可以将图像数据大小减少到0.1\%甚至更低,具有强大的潜在应用。然而,CMC在与原始图像的一致性和感知质量方面存在一定缺陷。为了解决这个问题,我们引入了CMC-Bench,一个评估图像到文本(I2T)和文本到图像(T2I)模型合作性能的基准。该基准涵盖了分别用于验证6种主流I2T和12种T2I模型的18,000和40,000张图像,其中包括由人类专家注释的160,000个主观偏好分数。在超低比特率下,本文证明了一些I2T和T2I模型的组合已经超越了最先进的视觉信号编解码器;同时,突出了LMMs在压缩任务中可以进一步优化的方向。我们鼓励LMM开发者参与此测试,以推动视觉信号编解码器协议的演进。
在以主题驱动的文本到图像生成中,最近的研究通过在合成数据集上训练模型取得了卓越的性能,这些数据集包含大量图像对。在这些数据集上训练后,生成模型可以以零样本的方式为特定主题从任意测试图像生成与文本对齐的图像。它们甚至胜过需要在测试图像上进行额外微调的方法。然而,创建这类数据集的成本对大多数研究人员来说是不可承受的。为了生成单个训练对,当前方法会在主题图像上对预训练的文本到图像模型进行微调,以捕捉细粒度细节,然后使用微调后的模型基于创意文本提示为同一主题创建图像。因此,构建一个包含数百万主题的大规模数据集可能需要数十万个GPU小时。为了解决这个问题,我们提出了一种高效的方法 Toffee,用于构建以主题驱动的编辑和生成的数据集。具体来说,我们的数据集构建不需要任何主题级微调。在预训练了两个生成模型之后,我们能够生成无限数量的高质量样本。我们构建了第一个以主题驱动的图像编辑和生成的大规模数据集,包含 500 万个图像对、文本提示和蒙版。我们的数据集是先前最大数据集的 5 倍大小,但成本降低了数万个 GPU 小时。为了测试提出的数据集,我们还提出了一个模型,能够进行主题驱动的图像编辑和生成。通过简单地在我们提出的数据集上训练模型,它获得了有竞争力的结果,展示了提出的数据集构建框架的有效性。