每日精选AI研究论文及翻译
尽管像DALLE-3和稳定扩散这样的文本到图像模型正在迅速增多,但它们经常面临幻觉、偏见和生成不安全、低质量输出等挑战。要有效解决这些问题,关键是根据来自多模态评委的反馈,将这些模型与期望的行为进行对齐。尽管它们的重要性,当前的多模态评委经常接受其能力和局限性的不充分评估,可能导致不对齐和不安全的微调结果。为了解决这个问题,我们引入了MJ-Bench,这是一个新颖的基准,它结合了一个全面的偏好数据集,用于评估多模态评委在为图像生成模型提供反馈方面的四个关键视角:对齐、安全、图像质量和偏见。具体而言,我们评估了大量多模态评委,包括基于较小规模的CLIP评分模型、开源VLMs(例如LLaVA系列)和闭源VLMs(例如GPT-4o、Claude 3),在我们偏好数据集的每个分解子类别上进行评估。实验表明,闭源VLMs通常提供更好的反馈,其中GPT-4o在平均值上表现优异。与开源VLMs相比,较小规模的评分模型在文本-图像对齐和图像质量方面可以提供更好的反馈,而VLMs由于其更强的推理能力,在安全性和生成偏见方面提供更准确的反馈。在反馈规模方面的进一步研究显示,VLM评委通常可以比数字规模在自然语言(Likert规模)上提供更准确和稳定的反馈。值得注意的是,使用这些多模态评委的单独反馈对端到端微调模型进行的人类评估得出了类似的结论,进一步确认了MJ-Bench的有效性。所有数据、代码、模型均可在https://huggingface.co/MJ-Bench 获取。
大型语言模型(LLMs)展示了在高资源语言任务中出色的翻译能力,然而它们在低资源语言中的表现受到预训练期间多语言数据不足的影响。为了解决这一问题,我们投入了35,000个A100-SXM4-80GB GPU小时进行LLaMA系列模型的广泛多语言持续预训练,实现了对100多种语言的翻译支持。通过对训练策略(如词汇扩展和数据增强)的全面分析,我们开发了LLaMAX。值得注意的是,LLaMAX在不牺牲泛化能力的情况下,相较于现有开源LLMs,实现了显著更高的翻译性能(高出10个spBLEU点以上),并在Flores-101基准测试中与专门的翻译模型(M2M-100-12B)表现相当。广泛的实验表明,LLaMAX可以作为一个强大的多语言基础模型。代码\url{https://github.com/CONE-MT/LLaMAX/.}和模型\url{https://huggingface.co/LLaMAX/.}已公开提供。
本文讨论了为处理每个时间步的新信息而需要恒定时间的非常长序列创建神经架构的挑战。我们的方法,即关联循环记忆变换器(ARMT),基于变换器的自注意力机制用于处理局部上下文,以及基于片段级别的循环用于存储分布在长上下文中的特定任务信息。我们展示了ARMT在关联检索任务中优于现有的替代方案,并在最近的BABILong多任务长上下文基准测试中取得了新的性能记录,通过对超过5000万标记的单事实问题的回答准确率达到了79.9%。训练和评估的源代码可在github上获得。
图像编辑模型应能执行各种编辑,从对象替换、更改属性或风格,到执行动作或运动,这需要多种形式的推理。当前的通用指导编辑模型在涉及动作和推理为中心的编辑方面存在显著缺陷。对象、属性或风格的变化可以从视觉静态数据集中学习。另一方面,用于动作和推理为中心的编辑的高质量数据稀缺,必须来自完全不同的来源,涵盖例如物理动力学、时间性和空间推理。为此,我们精心策划了AURORA数据集(动作-推理-对象-属性),这是一个高质量训练数据集,从视频和模拟引擎中人工注释和策划而来。我们专注于质量训练数据的一个关键方面:三元组(源图像、提示、目标图像)包含由提示描述的单一有意义的视觉变化,即源图像和目标图像之间的真正最小变化。为了展示我们数据集的价值,我们在一个新的专家策划的基准测试(AURORA-Bench)上评估了一个经过AURORA微调的模型,涵盖了8个不同的编辑任务。我们的模型在人类评分员的评判下明显优于先前的编辑模型。对于自动评估,我们发现先前度量标准存在重要缺陷,并警告其在语义困难的编辑任务中的使用。相反,我们提出了一个侧重于辨别理解的新自动度量标准。我们希望我们的努力:(1)策划高质量训练数据集和评估基准,(2)开展关键评估,以及(3)发布最先进的模型,将推动通用图像编辑的进一步进展。
先前的开源大型多模态模型(LMMs)存在几个限制:(1) 它们通常缺乏本地集成,需要适配器来将视觉表示与预训练的大型语言模型(LLMs)对齐;(2) 许多模型仅限于单模态生成;(3) 虽然一些支持多模态生成,但它们依赖于用于视觉建模和生成的独立扩散模型。为了缓解这些限制,我们提出了Anole,这是一个开放的、自回归的、本地的大型多模态模型,用于交错的图像-文本生成。我们从Meta AI的Chameleon构建了Anole,采用了一种既数据高效又参数高效的创新微调策略。Anole展示了高质量、连贯的多模态生成能力。我们已经开源了我们的模型、训练框架和指导微调数据。
大型语言模型在现实世界的应用中被广泛使用,通常被要求对大量文档进行推理。在这一领域的一个令人兴奋的发展是具有扩展上下文能力的模型,其中一些模型可以容纳超过 2 百万个标记。这种长上下文模型的能力在生产系统中仍存在不确定性,这促使我们有必要在真实用例中对它们的性能进行基准测试。我们通过提出 SWiM 来解决这一挑战,这是一个解决标准测试限制的评估框架。在八个长上下文模型上测试该框架后,我们发现即使是强大的模型如 GPT-4 和 Claude 3 Opus,在上下文窗口中间存在信息时性能也会下降(中间丢失效应)。接下来,除了我们的基准测试,我们提出了中值投票,这是一种简单但有效的无需训练的方法,可以帮助缓解这种效应,方法是生成几次回答,每次随机排列上下文中的文档,并选择中值答案。我们在单文档问答任务上评估了中值投票,准确率提高了高达 24%。
本文介绍了UltraEdit,这是一个大规模(约400万个编辑样本)的自动生成数据集,用于基于指令的图像编辑。我们的关键思想是解决现有图像编辑数据集(如InstructPix2Pix和MagicBrush)的缺点,并提供一个系统化方法来生成大量且高质量的图像编辑样本。UltraEdit具有几个明显优势:1)通过利用大型语言模型(LLMs)的创造力以及来自人类评分者的上下文编辑示例,它具有更广泛范围的编辑指令;2)其数据来源基于真实图像,包括照片和艺术作品,相较于仅由文本到图像模型生成的数据集,提供了更大的多样性和减少了偏见;3)它还支持基于区域的编辑,通过高质量的自动生成区域注释进行增强。我们的实验表明,在UltraEdit上训练的基于经典扩散的编辑基线在MagicBrush和Emu-Edit基准上创造了新纪录。我们的分析进一步确认了真实图像锚点和基于区域的编辑数据的关键作用。数据集、代码和模型可在https://ultra-editing.github.io找到。
最近在3D人工智能生成与创造(AIGC)领域取得的进展显示出直接从文本和图像中创建3D物体的潜力,为动画和产品设计带来了显著的成本节约。然而,对3D资产进行详细编辑和定制仍然是一个长期存在的挑战。具体来说,3D生成方法缺乏像其2D图像创建对应物那样精确地遵循细节指令的能力。想象一下,通过3D AIGC可以获得一个玩具,但配件和服装却不尽如人意。为了解决这一挑战,我们提出了一个名为Tailor3D的新型流程,可以快速从可编辑的双面图像中创建定制的3D资产。我们的目标是模仿裁缝的能力,局部改变物体或进行整体风格转移。与从多个视角创建3D资产不同,使用双面图像消除了在编辑单个视角时发生的重叠区域冲突。具体而言,它首先通过编辑正面视图,然后通过多视角扩散生成物体的背面视图。随后,它继续编辑背面视图。最后,提出了双面LRM,无缝地将正面和背面的3D特征拼接在一起,类似于裁缝缝合服装的正面和背面。双面LRM纠正了正面和背面视图之间的不完美一致性,增强了编辑能力,并减轻了内存负担,同时通过LoRA三平面变压器将它们无缝地整合成统一的3D表示。实验结果展示了Tailor3D在各种3D生成和编辑任务中的有效性,包括3D生成填充和风格转移。它为编辑3D资产提供了用户友好、高效的解决方案,每个编辑步骤仅需几秒钟即可完成。
最近开源代码大型语言模型(LLMs)的进展展示了通过在强大的闭源LLMs(如GPT-3.5和GPT-4)生成的数据上进行微调,具有卓越的编码能力,用于指令调整。本文探讨了如何通过从自身生成数据而不是查询闭源LLMs来进一步改进指令调整的代码LLM。我们的关键观察是正式语言和非正式语言之间的翻译存在不一致性:将正式语言(即代码)翻译为非正式语言(即自然语言)比反之更为直接。基于这一观察,我们提出了INVERSE-INSTRUCT,它从代码片段中总结指令而非相反。具体而言,给定用于代码的指令调整语料库和生成的指令调整代码LLM,我们要求代码LLM通过代码摘要和自我评估为原始语料库生成额外的高质量指令。然后,我们对基础LLM进行微调,结合原始语料库和自动生成的语料库,从而产生更强大的指令调整LLM。我们提出了一系列名为InverseCoder的代码LLMs,它在各种基准测试中超越了原始代码LLMs的性能,包括Python文本到代码生成、多语言编码和数据科学代码生成。
最近,大规模文本到视频(T2V)扩散模型展示了前所未有的能力,将自然语言描述转换为令人惊叹且逼真的视频。尽管取得了令人期待的结果,但仍存在一个重要挑战:这些模型难以完全理解多个概念和动作之间的复杂组合互动。当一些词语主导性地影响最终视频时,会掩盖其他概念,从而产生这个问题。为了解决这个问题,我们引入了Vico,一个用于组合视频生成的通用框架,明确确保所有概念得到适当表示。在其核心,Vico分析输入标记如何影响生成的视频,并调整模型以防止任何单一概念主导。具体而言,Vico从所有层中提取注意力权重以构建空间-时间注意力图,然后估计从源文本标记到视频目标标记的最大流作为影响。尽管在扩散模型中直接计算注意力流通常是不可行的,但我们设计了一种基于子图流的高效近似,并采用了快速且矢量化的实现,从而使流计算变得可管理且可微分。通过更新嘈杂的潜在因子来平衡这些流,Vico捕捉复杂互动,从而生成与文本描述紧密符合的视频。我们将该方法应用于多个基于扩散的视频模型,用于组合T2V和视频编辑。实证结果表明,我们的框架显著增强了生成视频的组合丰富性和准确性。欢迎访问我们的网站:https://adamdad.github.io/vico/。
大型视觉语言模型(LVLMs)经常出现物体幻觉问题,会在给定图像中产生不存在的物体。尽管当前关于物体幻觉的基准主要集中在单个物体类别的存在上,而不是个体实体,但本研究系统地调查了多物体幻觉,研究模型在同时关注多个物体时如何错误理解(例如,创造不存在的物体或分心)。我们引入了基于识别的物体探测评估(ROPE),这是一种自动化评估协议,考虑了在测试过程中单个图像中物体类别的分布,并使用视觉指代提示来消除歧义。通过全面的实证研究和分析潜在导致多物体幻觉的因素,我们发现:(1)LVLMs在关注多个物体时比关注单个物体更容易出现幻觉。 (2)被测试的物体类别分布会影响幻觉行为,表明LVLMs可能会遵循捷径和虚假相关性。(3)幻觉行为受数据特定因素、显著性和频率以及模型内在行为的影响。我们希望能够使LVLMs能够识别和推理出现在现实视觉场景中的多个物体,提供见解,并量化我们在减轻这些问题方面的进展。
近年来,大型语言模型(LLMs)的兴起推动了对即插即用人工智能系统的增长需求。在各种人工智能技术中,提示工程显得尤为重要。然而,由于陡峭的学习曲线和大量时间投入,用户经常在撰写提示时面临挑战,而现有的自动提示工程(APE)模型可能难以使用。为解决这一问题,我们提出了PAS,一种基于LLM的即插即用APE系统。PAS利用在高质量自动生成的提示互补数据集上训练的LLMs,表现出卓越的性能。在全面的基准测试中,PAS相比以往的APE模型取得了最先进的结果,平均改进了6.09个点。此外,PAS高效率,仅需9000个数据点即可达到最先进的性能。此外,PAS可以自动生成提示增强数据,无需额外的人力。其灵活性也使其与所有现有的LLMs兼容,并适用于各种任务。PAS在人类评估中表现出色,突显了其作为用户插件的适用性。PAS在高性能、高效率和灵活性的结合下,成为通过改进提示工程来增强LLMs的可用性和效果的宝贵系统。
为了为专门的任务创建可部署模型的最可靠方法之一是获得足够数量且高质量的特定任务数据。然而,对于专门的任务,通常这样的数据集并不存在。现有的方法通过从大型语言模型(LLMs)中创建这样的数据,然后将这些知识提炼到较小的模型中来解决这个问题。然而,这些方法受限于LLMs输出的质量,并且往往会生成重复或不正确的数据。在这项工作中,我们提出了基于检索的蒸馏(ReBase)方法,该方法首先从丰富的在线来源中检索数据,然后将其转化为领域特定数据。这种方法极大地增强了数据的多样性。此外,ReBase生成了“思维链”推理,并提炼了LLMs的推理能力。我们在4个基准测试上测试了我们的方法,结果显示我们的方法在SQuAD上的性能提高了高达7.8%,在MNLI上提高了1.37%,在BigBench-Hard上提高了1.94%。
最近的研究表明,深度学习模型对倾向于偏爱简单特征的归纳偏差可能是捷径学习的一个来源之一。然而,对于模型学习的众多特征的复杂性了解仍然有限。在这项工作中,我们引入了一个新的度量标准来量化特征的复杂性,基于V-信息并捕捉特征是否需要复杂的计算转换才能被提取出来。利用这个V-信息度量标准,我们分析了从一个标准的ImageNet训练的视觉模型中提取的10,000个特征的复杂性,这些特征被表示为倒数第二层中的方向。我们的研究涉及四个关键问题:首先,我们探讨了特征在复杂性方面的表现,并发现模型中存在简单到复杂的特征光谱。其次,我们研究了特征在训练过程中何时被学习。我们发现,在训练初期简单特征占主导地位,而更复杂的特征逐渐出现。第三,我们调查了网络内简单和复杂特征流动的位置,并发现简单特征倾向于通过残差连接绕过视觉层次结构。第四,我们探讨了特征复杂性与它们在驱动网络决策中的重要性之间的联系。我们发现复杂特征往往不那么重要。令人惊讶的是,重要特征在训练过程中更早地变得可访问,就像沉淀过程一样,使模型能够建立在这些基础元素之上。
本文通过允许用户“选择”,推动了生成视觉人工智能中的创造性控制。我们摒弃了传统的基于文本或素描的方法,首次允许用户为其创意努力按部件选择视觉概念。其结果是精细生成,精确捕捉所选视觉概念,确保整体忠实和可信的结果。为实现这一目标,我们首先通过无监督特征聚类将对象解析为部件。然后,我们将部件编码为文本标记,并引入基于熵的归一化注意力损失来操作它们。这种损失设计使我们的模型能够学习关于对象部件组成的通用先验拓扑知识,并进一步推广到新颖的部件组合,以确保生成看起来整体忠实。最后,我们采用瓶颈编码器来投影部件标记。这不仅增强了保真度,还通过利用共享知识和促进实例间的信息交流来加快学习。论文和补充材料中的视觉结果展示了PartCraft在打造高度定制、创新作品中的引人注目力量,以“迷人”和富有创意的鸟类为例。代码已发布在 https://github.com/kamwoh/partcraft。
实体链接(EL)模型在根据给定上下文将提及映射到相应实体方面经过良好训练。然而,由于训练数据有限,EL模型在消歧长尾实体方面存在困难。与此同时,大型语言模型(LLMs)更擅长解释不常见的提及。然而,由于缺乏专门训练,LLMs在生成正确实体ID方面存在困难。此外,训练LLM执行EL是成本高昂的。基于这些见解,我们引入了LLM增强实体链接(LLMAEL),这是一种通过LLM数据增强来增强实体链接的即插即用方法。我们利用LLMs作为知识上下文增强器,生成以提及为中心的描述作为额外输入,同时保留传统EL模型进行特定任务处理。对6个标准数据集的实验表明,原始LLMAEL在大多数情况下优于基线EL模型,而经过微调的LLMAEL在所有6个基准测试中取得了新的最先进结果。
大型语言模型(LLMs)在各个领域和广泛应用的长篇问答任务中表现出幻觉。目前的幻觉检测和缓解数据集在领域和规模上受限,由于劳动成本高昂和现有幻觉标注者的可靠性不足而难以扩展。为了促进大规模监督LLM幻觉的发现,本文介绍了一种迭代自训练框架,同时逐步扩展幻觉注释数据集并提高幻觉标注器的准确性。基于期望最大化(EM)算法,在每次迭代中,该框架首先将幻觉注释流程应用于一个扩展数据集,然后在该数据集上训练一个更准确的幻觉标注器。这个新的幻觉标注器被用于下一次迭代中的幻觉注释流程。大量实验结果表明,最终获得的仅具有7B参数的幻觉标注器超越了GPT-4的性能,并通过零样本推理在HaluEval和HalluQA上获得了新的最先进幻觉检测结果。这样的标注器不仅可以评估大规模数据集上各种LLMs的幻觉水平,还可以帮助减轻LLMs生成的幻觉,使自然语言推理(NLI)指标在HaluEval上从25%提高到37%。