每日精选AI研究论文及翻译
后训练量化是解决LLM推理中与内存相关的瓶颈的主要方法,但遗憾的是,在4位以下的精度下,它会遭受显著的性能下降。另一种替代方法涉及直接在低位宽(例如,二进制或三进制模型)上训练压缩模型。然而,这些模型的性能、训练动态和扩展趋势尚未得到很好的理解。为了解决这个问题,我们训练并公开发布了Spectra LLM套件,包括54个语言模型,参数范围从99M到3.9B,训练了300B个标记。Spectra包括FloatLMs、后训练量化的QuantLMs(3、4、6和8位)和三进制LLMs(TriLMs)-我们改进的三进制语言建模架构,明显优于先前提出的相同大小(以位计)的三进制模型,与规模相匹配的半精度模型。例如,TriLM 3.9B(按位)比半精度FloatLM 830M更小,但在常识推理和知识基准上与半精度FloatLM 3.9B相匹配。然而,TriLM 3.9B也像FloatLM 3.9B一样具有毒性和刻板印象,后者的大小是它的六倍。此外,TriLM 3.9B在验证集和基于网络的语料库的困惑度上落后于FloatLM,但在像Lambada和PennTreeBank这样的噪声较小的数据集上表现更好。 为了增进对低位宽模型的理解,我们发布了Spectra套件的500多个中间检查点,网址为https://github.com/NolanoOrg/SpectraSuite。
我们介绍GoldFinch,这是一个混合线性注意力/Transformer序列模型,它使用一种新技术来高效生成一个高度压缩且可重复使用的KV-Cache,其时间和空间复杂度均与序列长度成线性关系。GoldFinch在增强版本的Finch(RWKV-6)架构之上叠加了我们的新GOLD transformer。我们训练了高达15亿参数的Finch、Llama和GoldFinch架构的模型,相对于Finch和Llama,我们发现建模性能得到了显著改善。我们的缓存大小节省随着模型层数的增加呈线性增长,对于常见尺寸,比传统Transformer缓存小756-2550倍,使得即使在有限硬件上也能推断极大的上下文长度。尽管由于注意力,自回归生成每个标记的时间复杂度为O(n),但由于使用循环神经网络(RNN)生成此缓存的整个初始状态的预填充计算仅每个标记耗费O(1)的时间。我们以Apache 2.0许可证发布我们训练的权重和训练代码,供社区使用。
LLM代理在各种应用中展现出卓越的性能,主要归功于其在推理、利用外部知识和工具、调用API以及执行动作与环境交互方面的先进能力。当前代理通常利用记忆模块或检索增强生成(RAG)机制,从知识库中检索过去的知识和具有相似嵌入的实例,以指导任务规划和执行。然而,对未经验证的知识库的依赖引发了对其安全性和可信度的重大担忧。为了揭示这类漏洞,我们提出了一种新颖的红队方法AgentPoison,这是针对通用和基于RAG的LLM代理的首个后门攻击,通过对其长期记忆或RAG知识库进行毒化。具体来说,我们将触发生成过程构建为受限优化,通过将触发的实例映射到唯一的嵌入空间来优化后门触发器,以确保每当用户指令包含优化后门触发器时,恶意演示将以高概率从被毒化的记忆或知识库中检索出来。同时,不带触发器的良性指令仍将保持正常性能。与传统后门攻击不同,AgentPoison无需额外的模型训练或微调,优化后门触发器表现出卓越的可转移性、上下文连贯性和隐蔽性。大量实验证明AgentPoison在攻击三种类型的现实世界LLM代理方面的有效性:基于RAG的自动驾驶代理、知识密集型QA代理和医疗保健EHRAgent。在每个代理上,AgentPoison的平均攻击成功率高于80%,对良性性能的影响极小(低于1%),毒化率低于0.1%。
多模态大型语言模型(MLLMs)在一般视觉和语言理解方面展现出了令人期待的进展。然而,利用MLLMs表示多模态信息的方法仍然鲜为人知。在这项工作中,我们引入了一个新框架,命名为E5-V,旨在调整MLLMs以实现通用多模态嵌入。我们的研究结果突显了MLLMs相较于先前方法在表示多模态输入方面的显著潜力。通过利用MLLMs与提示语,E5-V有效地弥合了不同类型输入之间的模态差距,在多模态嵌入方面表现出了强大的性能,甚至无需进行微调。我们提出了一种针对E5-V的单模态训练方法,其中模型仅在文本对上进行训练。这种方法相较于传统的基于图像-文本对的多模态训练,展现出了显著的改进,同时将训练成本降低了约95%。此外,这种方法消除了昂贵的多模态训练数据收集的需求。通过对四种类型任务的广泛实验,展示了E5-V的有效性。作为一种通用多模态模型,尽管仅在单一模态上进行训练,E5-V不仅实现了但经常超越了每项任务的最新性能。
大型基础模型的进展需要广覆盖、低成本和零污染的基准。尽管对语言模型评估进行了持续探索,但对大型多模态模型(LMMs)评估的综合研究仍然有限。在这项工作中,我们介绍了LMMS-EVAL,一个统一标准的多模态基准框架,涵盖了50多项任务和超过10个模型,以促进透明和可重现的评估。尽管LMMS-EVAL提供了全面的覆盖范围,但我们发现它在实现低成本和零污染方面仍然存在不足。为了解决这一评估三难问题,我们进一步推出了LMMS-EVAL LITE,一个强调覆盖范围和效率的精简评估工具包。此外,我们提出了Multimodal LIVEBENCH,利用不断更新的新闻和在线论坛来评估模型在真实环境中的泛化能力,采用低成本和零污染的评估方法。总之,我们的工作强调考虑评估三难问题的重要性,并提供了实际解决方案,以应对评估大型多模态模型时的权衡,为更有效可靠地对LMMs进行基准测试铺平道路。我们在https://github.com/EvolvingLMMs-Lab/lmms-eval和https://huggingface.co/spaces/lmms-lab/LiveBench上开源我们的代码库,并维护LIVEBENCH的排行榜。
随着大型语言模型(LLMs)在语言理解和生成方面取得显著进展,它们的训练效率已成为一个关键问题。传统上,LLMs 被训练以预测序列中的下一个标记。尽管标记级别训练取得了成功,但由于需要处理大量标记,它面临着相当大的计算成本。为了缓解这一问题,本文引入了面向补丁级别的LLMs训练,通过将多个标记压缩成单个补丁来减少序列长度。在补丁级别训练期间,我们向语言模型提供更短的补丁序列,并训练它来预测下一个补丁,从而以显著降低的计算成本处理大部分训练数据。随后,模型在剩余的训练数据上继续进行标记级别训练,以与推理模式保持一致。在各种模型(370M-2.7B 参数)上的实验表明,与标记级别训练相比,补丁级别训练可以将整体计算成本降低到0.5倍,而不会影响模型性能。源代码:https://github.com/shaochenze/PatchTrain。
现代文本到视频合成模型展示了从文本描述生成复杂视频的连贯、逼真的能力。然而,大多数现有模型缺乏对摄像机运动的精细控制,这对于与内容创作、视觉效果和3D视觉相关的下游应用至关重要。最近,新方法展示了生成具有可控摄像机姿态的视频的能力,这些技术利用了预训练的基于U-Net的扩散模型,明确地解耦了空间和时间生成。然而,目前还没有现有方法能够实现对新的基于Transformer的视频扩散模型进行摄像机控制,这些模型同时处理空间和时间信息。在这里,我们提出利用类似ControlNet的条件机制来驯服视频Transformer,以实现3D摄像机控制,该机制结合了基于Plucker坐标的时空摄像机嵌入。该方法在RealEstate10K数据集上微调后展示了可控视频生成的最新性能。据我们所知,我们的工作是第一个为基于Transformer的视频扩散模型实现摄像机控制的工作。
最新的进展通过使用潜在扩散模型进行局部服装修补,实现了逼真的虚拟试穿(VTON),显著提升了消费者的在线购物体验。然而,现有的VTON技术忽视了商家全面展示服装的需求,包括对服装、可选面部、姿势和场景的灵活控制。为解决这一问题,我们定义了一个着重于生成可自由编辑人体图像的虚拟试衣(VD)任务,固定服装并可选条件。同时,我们设计了一个全面的亲和度度量指标(CAMI)来评估生成图像与参考服装之间的一致性。然后,我们提出了IMAGDressing-v1,其中包括一个从CLIP捕获语义特征和从VAE获取纹理特征的服装UNet。我们提出了一个混合注意力模块,包括一个冻结的自注意力和一个可训练的交叉注意力,将服装UNet中的服装特征整合到冻结去噪UNet中,确保用户可以通过文本控制不同场景。IMAGDressing-v1可以与其他扩展插件结合,如ControlNet和IP-Adapter,以增强生成图像的多样性和可控性。此外,为解决数据不足问题,我们发布了交互式服装配对(IGPair)数据集,包含超过30万对服装和着装图像,并建立了数据组装的标准流程。大量实验证明,我们的IMAGDressing-v1在各种受控条件下实现了最先进的人体图像合成性能。代码和模型将在https://github.com/muzishen/IMAGDressing 上提供。
大多数基于LLM的视频理解模型可以在几分钟内处理视频。然而,它们在处理长视频时面临挑战,诸如“噪声和冗余”,以及“内存和计算”限制。本文介绍了Goldfish,一种专为理解任意长度视频而设计的方法。我们还推出了TVQA-long基准,专门用于评估模型在理解长视频(包含视觉和文本内容问题)方面的能力。Goldfish通过高效的检索机制来解决这些挑战,该机制首先收集与指示相关的前k个视频片段,然后提供所需的响应。这种检索机制的设计使Goldfish能够高效处理任意长度的视频序列,便于在电影或电视系列等场景中应用。为了促进检索过程,我们开发了MiniGPT4-Video,用于为视频片段生成详细描述。为了解决长视频评估基准的稀缺性,我们将TVQA短视频基准进行了调整,通过整集问题的聚合来进行扩展内容分析,从而将评估从部分转变为完整集的理解。我们在TVQA-long基准上取得了41.78%的准确率,超过先前方法14.94%。我们的MiniGPT4-Video在短视频理解方面表现出色,分别在MSVD、MSRVTT、TGIF和TVQA短视频基准上超过现有最先进方法3.23%、2.03%、16.5%和23.59%。这些结果表明我们的模型在长视频和短视频理解方面有显著改进。我们的模型和代码已公开发布在https://vision-cair.github.io/Goldfish_website/。
复杂推理是大型语言模型(LLMs)展示的令人印象深刻的能力。大多数LLMs擅长演绎推理,例如思维链激发或迭代工具使用,以逐步解决具有挑战性的任务。在本文中,我们希望专注于评估和教导LLMs进行归纳推理,即LLMs应该通过观察示例或顺序转换来推断潜在规则。然而,收集大规模和多样化的人类生成的归纳数据具有挑战性。我们专注于在代码领域进行数据合成,并通过利用程序的表达能力和正确性提出了一个Case2Code任务。具体来说,我们收集了一组多样化的可执行程序,为每个程序合成输入输出转换,并迫使LLMs根据合成的I/O案例推断出底层代码实现。我们首先评估了代表性的LLMs在合成的Case2Code任务上的表现,并展示了Case-to-code归纳对LLMs而言是具有挑战性的。然后,我们合成了大规模的Case2Code训练样本,以训练LLMs进行归纳推理。实验结果表明,这种归纳训练不仅有助于分布式Case2Code性能,还增强了经过训练的LLMs的各种编码能力,展示了通过合成数据学习归纳推理的巨大潜力。
大多数音乐生成模型使用文本或参数条件(例如,速度、和声、音乐风格),我们提出使用音频输入来对基于语言模型的音乐生成系统进行条件化。我们的探索涉及两种不同的策略。第一种策略称为文本反演,利用预训练的文本到音乐模型将音频输入映射到文本嵌入空间中相应的“伪词”。对于第二个模型,我们从头开始训练一个音乐语言模型,同时配合一个文本条件器和一个量化的音频特征提取器。在推断时,我们可以混合文本和音频条件,并通过一种新颖的双分类器自由引导方法来平衡它们。我们进行了自动化和人类研究来验证我们的方法。我们将发布代码,并在https://musicgenstyle.github.io上提供音乐样本,以展示我们模型的质量。
从无约束的野外图像集合中合成新视角仍然是一个重要且具有挑战性的任务,这是由于光度变化和瞬时遮挡物使准确的场景重建变得复杂。先前的方法通过在神经辐射场(NeRFs)中集成每个图像外观特征嵌入来解决这些问题。虽然3D高斯飞溅(3DGS)提供了更快的训练和实时渲染,但要将其适应无约束的图像集合并非易事,因为其架构存在显著不同。在本文中,我们介绍了Splatfacto-W,一种方法,它将每个高斯神经颜色特征和每个图像外观嵌入集成到光栅化过程中,同时采用基于球谐函数的背景模型来表示不同的光度外观并更好地描绘背景。我们的关键贡献包括潜在外观建模、高效的瞬时对象处理和精确的背景建模。Splatfacto-W在野外场景中提供了高质量、实时的新视角合成,改善了场景一致性。我们的方法将峰值信噪比(PSNR)平均提高了5.3 dB,比3DGS提高了150倍的训练速度,同时实现了与3DGS相似的渲染速度。更多视频结果和集成到Nerfstudio的代码可在https://kevinxu02.github.io/splatfactow/上找到。
在充满杂乱环境中的机器人抓取仍然是一个重大挑战,这是由于遮挡和复杂的物体布局所致。我们开发了ThinkGrasp,这是一个即插即用的视觉-语言抓取系统,利用GPT-4o的先进语境推理来制定重度混乱环境抓取策略。ThinkGrasp能够有效识别并生成目标物体的抓取姿势,即使它们被严重遮挡或几乎看不见,也能通过目标导向语言来引导清除遮挡物体。这种方法逐步揭示目标物体,最终通过少量步骤和高成功率抓取它。在模拟和真实实验中,ThinkGrasp取得了高成功率,并在充分混乱的环境或具有多样未知物体的情况下明显优于最先进的方法,展现出强大的泛化能力。
图形用户界面(GUI)是用户与移动应用程序进行交互的方式。为了确保其正常运行,测试工程师必须根据通常用自然语言撰写的测试需求,确保其按照预期功能。虽然广泛采用的手动测试和基于脚本的方法是有效的,但由于现代移动应用程序中GUI页面众多且迭代速度快,因此需要大量工作量。本文介绍了AUITestAgent,这是第一个自动化、基于自然语言驱动的移动应用程序GUI测试工具,能够完全自动化整个GUI交互和功能验证过程。由于测试需求通常包含交互命令和验证规则,AUITestAgent可以通过动态组织的代理从测试需求中提取GUI交互。然后,AUITestAgent采用多维数据提取策略从交互跟踪中检索与测试需求相关的数据并进行验证。在定制基准测试中的实验表明,AUITestAgent在生成的GUI交互质量方面优于现有工具,并实现了94%的验证准确性。此外,在美团的现场部署中,AUITestAgent显示出了实际可用性,它在两个月内的10次回归测试中检测到了4个新的功能性错误。
借助大型语言模型(LLMs)的显著进展,人们正在兴起一项倡议,利用LLMs进行指令跟随机器人导航。这一趋势突显了LLMs在推理导航和多样化语言理解方面的潜力。然而,在将LLMs整合到视觉与语言导航(VLN)任务中时,观察到了代理性能上的显著差异,与以往的下游专业模型相比。此外,语言的固有能力在代理交互中解释和促进沟通的作用通常在这些整合中被低估。在这项工作中,我们致力于弥合VLN专业化模型和基于LLMs的导航范式之间的鸿沟,同时保持LLMs在生成语言导航推理方面的解释能力。通过将视觉内容与冻结的LLM进行对齐,我们包含了LLMs的视觉观察理解,并利用一种方法来将LLMs和导航策略网络结合起来,以实现有效的动作预测和导航推理。我们展示了所提出方法的数据效率,并消除了基于LM的代理与最先进的VLN专家之间的差距。
尽管大型语言模型(LLMs)在各个领域和任务中展现出令人印象深刻的性能,但它们的安全问题变得日益严重。机器遗忘(MU)已经成为一个有前途的解决方案,通过消除不需要数据对目标模型的影响,而不影响其在其他方面的效用,来解决这些问题。MU通常假设可以完全访问原始训练数据以保留效用,但在LLM遗忘中很难实现。现有的LLM遗忘方法通常假设可以访问受不需要数据遗忘影响最严重的数据。然而,这种假设低估了各种LLM能力之间的纠缠,并忽视了由于各种问题而导致的数据访问限制。此外,这些LLM遗忘方法并没有充分考虑到现实场景中不断出现的遗忘请求。为了克服这些挑战并实现实用的LLM遗忘,我们提出了O3框架。O3框架包括一个用于衡量输入和遗忘数据之间相似性的“分布外”(OOD)检测器,以及一个用于持续遗忘请求数据的正交低秩适配器(LoRA)。OOD检测器使用新颖的对比熵损失进行训练,并利用局部-全局层聚合评分机制。正交LoRA实现了在持续遗忘请求之间的参数解缠。在推断过程中,我们的O3框架可以智能地根据OOD检测器的预测决定是否以及在多大程度上加载遗忘LoRA。值得注意的是,O3的有效性不依赖于任何保留数据。我们在三个任务和七个数据集上对O3和最先进的LLM遗忘方法进行了大量实验。结果表明,O3在遗忘效果和效用保留之间始终取得最佳平衡,特别是在面对持续遗忘请求时。
基于聊天的语言模型旨在提供帮助,但不应满足每个用户请求。尽管大多数现有工作主要集中在拒绝“不安全”查询上,但我们认为不遵从的范围应该更广泛。我们引入了一个全面的上下文不遵从分类法,描述模型何时以及如何不应满足用户请求。我们的分类法涵盖了广泛的类别,包括不完整的、不支持的、不确定的和人性化的请求(除了不安全的请求)。为了测试语言模型的不遵从能力,我们使用这个分类法开发了一个包含1000个不遵从提示的新评估套件。我们发现,大多数现有模型在某些先前研究不足的类别中显示出显著高的遵从率,像GPT-4这样的模型错误地满足了多达30%的请求。为了解决这些差距,我们探讨了使用一个合成生成的请求和预期的不遵从响应训练集的不同训练策略。我们的实验表明,虽然直接微调指令调整模型可能导致过度拒绝和一般能力下降,但使用像低秩适配器这样的参数高效方法有助于在适当的不遵从和其他能力之间取得良好平衡。
语法错误检测(GED)方法在很大程度上依赖于人工标注的错误语料库。然而,在许多资源匮乏的语言中,这些注释是不可用的。本文探讨了在这种情况下的GED。利用多语言预训练语言模型的零-shot跨语言转移能力,我们使用来自多种语言的数据训练模型,以在其他语言中生成合成错误。然后,这些合成错误语料库用于训练GED模型。具体而言,我们提出了一个两阶段微调流程,其中GED模型首先在目标语言的多语言合成数据上进行微调,然后在源语言的人工标注的GED语料库上进行微调。这种方法胜过当前最先进的无注释GED方法。我们还分析了我们的方法和其他强基线模型产生的错误,发现我们的方法产生的错误更加多样且更类似于人类错误。
视频生成模型(VGMs)已经展示了合成高质量输出的能力。重要的是要了解它们产生不安全内容的潜力,比如暴力或恐怖视频。在这项工作中,我们提供了对不安全视频生成的全面理解。 首先,为了确认这些模型确实能够生成不安全视频的可能性,我们选择了从4chan和Lexica收集的不安全内容生成提示,以及三个开源SOTA VGMs来生成不安全视频。在过滤重复内容和生成质量较差的视频后,我们从原始视频池中创建了一个初始集合,包含2112个不安全视频,而原始视频池共有5607个视频。通过对这些生成视频进行聚类和主题编码分析,我们确定了5种不安全视频类别:扭曲/怪异、恐怖、色情、暴力/血腥和政治。在获得IRB批准后,我们招募了在线参与者来帮助标记生成的视频。根据403名参与者提交的注释,我们从初始视频集中确定了937个不安全视频。根据标记信息和相应的提示,我们创建了由VGMs生成的第一个不安全视频数据集。 然后,我们研究了防止生成不安全视频的可能防御机制。现有的图像生成防御方法主要集中在过滤输入提示或输出结果上。我们提出了一种新方法,称为潜变量防御(LVD),它在模型的内部采样过程中起作用。LVD在采样大量不安全提示时,可以实现0.90的防御准确率,同时减少时间和计算资源的使用量10倍。