每日精选AI研究论文及翻译
我们介绍了DeepSeek-Coder-V2,这是一个开源的专家混合(MoE)代码语言模型,在代码特定任务中实现了与GPT4-Turbo可比的性能。具体来说,DeepSeek-Coder-V2是在DeepSeek-V2的中间检查点进一步预训练的,额外增加了6万亿个标记。通过这种持续的预训练,DeepSeek-Coder-V2显著增强了DeepSeek-V2的编码和数学推理能力,同时在一般语言任务中保持了可比性能。与DeepSeek-Coder-33B相比,DeepSeek-Coder-V2在各个与代码相关的任务以及推理和一般能力方面都取得了显著进展。此外,DeepSeek-Coder-V2将其对编程语言的支持从86种扩展到338种,同时将上下文长度从16K扩展到128K。在标准基准评估中,DeepSeek-Coder-V2在编码和数学基准测试中表现优于GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等闭源模型。
在360度图像中准确估计深度对虚拟现实、自主导航和沉浸式媒体应用至关重要。现有为透视视角图像设计的深度估计方法在应用到360度图像时失败,原因在于不同的摄像机投影和失真,而360度方法由于缺乏标记数据对表现不佳。我们提出了一种新的深度估计框架,有效利用未标记的360度数据。我们的方法利用最先进的透视深度估计模型作为教师模型,通过六面立方体投影技术生成伪标签,实现对360度图像深度的高效标记。该方法利用了大型数据集日益增加的可用性。我们的方法包括两个主要阶段:离线生成无效区域的蒙版和在线半监督联合训练制度。我们在Matterport3D和Stanford2D3D等基准数据集上测试了我们的方法,显示出深度估计准确性显著提高,特别是在零样本场景中。我们提出的训练流程可以增强任何360度单眼深度估计器,并展示了在不同摄像机投影和数据类型之间有效的知识转移。请查看我们的项目页面获取结果:https://albert100121.github.io/Depth-Anywhere/
在大型语言模型(LLMs)中的人类对齐是一个活跃的研究领域。最近的一项开创性工作,即直接偏好优化(DPO),通过绕过强化学习从人类反馈中学习(RLHF)中的奖励学习阶段,极大地简化了这一过程。DPO 在训练后提供了一个隐式奖励模型。在这项工作中,我们做出了一个新颖的观察,即这个隐式奖励模型本身可以被用于自身引导方式进一步对齐 LLM。我们的方法是利用当前 LLM 模型的奖励来构建一个偏好数据集,然后在后续的 DPO 轮次中使用。我们还加入了一些改进,消除了回应长度的偏见,并提高了偏好数据集的质量以进一步改进我们的方法。我们的方法,命名为使用 DPO 隐式奖励的自我对齐(DICE),在对齐方面取得了巨大进展,并在 AlpacaEval 2 上表现优异,以 27.55% 的长度受控胜率击败了 GPT-4 Turbo,但仅使用了 80 亿参数且没有外部反馈。我们的代码可在 https://github.com/sail-sg/dice 找到。
大型语言和视觉模型(LLVMs)受到大型语言模型(LLMs)的泛化能力以及视觉指导调整的推动。除了直接扩大规模外,这些模型使LLVMs能够通过自然语言指令涵盖各种任务,展示强大的视觉语言(VL)性能。然而,现有的开源LLVMs,如GPT-4V等性能相当的闭源LLVMs,通常被认为太大(例如26B、34B和110B参数),具有更多的层。这些大型模型需要昂贵的高端资源进行训练和推断。为了解决这个问题,我们提出了一种新的高效LLVM家族,具有1.8B、3.8B和7B的LLM模型大小,名为层遍历(TroL),它可以以令牌方式重复使用层。这种层遍历技术模拟了回顾和重追答案流的效果,同时增加了前向传播层的数量,而无需物理上添加更多层。我们证明TroL采用简单的层遍历方法,却能有效地胜过具有更大模型大小的开源LLVMs,并与具有实质大小的闭源LLVMs的性能相匹敌。
我们介绍了ChatGLM,这是我们多年来开发的一系列不断发展的大型语言模型。本报告主要关注GLM-4语言系列,包括GLM-4、GLM-4-Air和GLM-4-9B。它们代表了我们最具能力的模型,这些模型是通过从前三代ChatGLM中获得的所有见解和经验进行训练的。迄今为止,GLM-4模型主要在中文和英文中预训练了一万亿个标记,同时还包括来自24种语言的一小部分语料库,并主要针对中文和英文使用进行了对齐。通过多阶段的后训练过程,包括监督微调和从人类反馈中学习,实现了高质量的对齐。评估表明,GLM-4在各种常规指标如MMLU、GSM8K、MATH、BBH、GPQA和HumanEval方面与GPT-4不相上下甚至表现更好,接近了GPT-4-Turbo在指令遵循方面的表现,与GPT-4 Turbo(128K)和Claude 3在长文本任务上相匹敌,以AlignBench测量的中文对齐方面胜过了GPT-4。GLM-4 All Tools模型进一步对齐,以理解用户意图,并自主决定何时以及使用哪些工具(包括网络浏览器、Python解释器、文本到图像模型和用户定义函数),以有效完成复杂任务。在实际应用中,它在访问在线信息和使用Python解释器解决数学问题等任务方面与甚至超过了GPT-4 All Tools。在过程中,我们开源了一系列模型,包括ChatGLM-6B(三代)、GLM-4-9B(128K、1M)、GLM-4V-9B、WebGLM和CodeGeeX,在2023年仅一年内在Hugging Face上吸引了超过1000万次下载。这些开源模型可以通过https://github.com/THUDM和https://huggingface.co/THUDM进行访问。
视觉-语言模型(VLMs)在各种多模态任务中取得了显著成功,但通常受限于有限的上下文窗口和处理高分辨率图像输入和视频的高计算成本。视觉压缩可以通过减少视觉令牌数量来缓解这一问题。先前的方法使用外部模块压缩视觉令牌,并强制LLMs理解压缩后的令牌,导致视觉信息丢失。然而,LLMs对视觉令牌的理解范式在压缩学习过程中并未充分利用。我们提出了VoCo-LLaMA,这是第一个使用LLMs压缩视觉令牌的方法。通过在视觉指导调整阶段引入视觉压缩令牌,并利用注意力蒸馏,我们的方法将LLMs理解视觉令牌的方式蒸馏到它们处理VoCo令牌的过程中。VoCo-LLaMA有助于有效的视觉压缩,并在推断阶段提高了计算效率。具体而言,我们的方法在压缩比达到576倍时实现了最小的性能损失,导致FLOPs减少高达94.8%,推断时间加速69.6%。此外,通过使用视频帧的时间序列压缩令牌序列进行持续训练,VoCo-LLaMA展示了理解时间相关性的能力,在流行的视频问答基准测试中胜过先前的方法。我们的方法展示了释放VLMs上下文窗口的全部潜力的一种有前途的方式,从而实现更具规模化的多模态应用。项目页面以及相关代码可通过以下链接访问:https://yxxxb.github.io/VoCo-LLaMA-page/{此https链接}。
软件代理已经成为解决复杂软件工程任务的有前途的工具。然而,现有的作品通过遵循瀑布模型过分简化了软件开发工作流程。因此,我们提出了AgileCoder,这是一个将敏捷方法论(AM)整合到框架中的多代理系统。该系统将特定的AM角色(如产品经理、开发人员和测试人员)分配给不同的代理,然后这些代理根据用户输入进行协作开发软件。AgileCoder通过将工作组织成冲刺,并专注于通过冲刺逐步开发软件来提高开发效率。此外,我们引入了动态代码图生成器,这是一个模块,会在对代码库进行更新时动态创建代码依赖图。这使代理能够更好地理解代码库,从而在整个软件开发过程中实现更精确的代码生成和修改。AgileCoder超越了现有的基准,如ChatDev和MetaGPT,树立了新的标准,展示了多代理系统在先进软件工程环境中的能力。我们的源代码可以在https://github.com/FSoft-AI4Code/AgileCoder 找到。
检索增强生成(RAG)丰富了语言模型利用外部上下文推理的能力,以增强对给定用户提示的响应。这种方法因在搜索、问答和聊天机器人等各种语言模型应用中的实际应用而日益受到欢迎。然而,这种方法的确切工作方式并不清楚。本文从机械角度检验了RAG管道,以突出语言模型采取捷径的方式,并倾向于仅利用上下文信息来回答问题,而最小程度地依赖它们的参数化记忆。我们通过以下方式探究语言模型的这种机械行为:(i)因果中介分析表明,在回答问题时参数化记忆被最小程度利用;(ii)注意贡献和排除显示最后一个标记残余流不是从问题中的主题标记中获得丰富信息,而是从上下文中的其他信息标记中获得丰富信息。我们发现这种明显的捷径行为在LLaMa和Phi系列模型中都存在。
监督微调增强了语言模型在各种数学推理任务中的问题解决能力。为了最大化这些好处,现有研究侧重于通过各种数据增强技术扩展训练集,这对于标准的单轮问答设置是有效的。我们的工作引入了一种旨在培养对手头训练问题的更深入理解的新技术,不仅提高了在标准设置中的性能,还提高了在需要反思性思维的更复杂场景中的表现。具体而言,我们提出了反思增强,这是一种将问题反思嵌入到每个训练实例中的方法。它训练模型考虑替代视角,并与抽象和类比进行互动,从而通过反思推理培养全面理解。大量实验证实了我们的目标的实现,突显了我们的方法的独特优势及其相对于现有增强技术的互补性质。
安全对齐语言模型通常表现出脆弱和不平衡的安全机制,增加了生成不安全内容的可能性。此外,通过编辑技术将新知识纳入语言模型可能进一步损害安全性。为了解决这些问题,我们提出了SafeInfer,这是一种上下文自适应、解码时安全对齐策略,用于生成对用户查询安全的响应。SafeInfer包括两个阶段:安全增强阶段,利用安全演示示例来调整模型的隐藏状态,增加生成更安全输出的可能性;以及安全引导解码阶段,根据安全优化分布影响标记选择,确保生成的内容符合伦理指南。此外,我们提出了HarmEval,一个新颖的用于广泛安全评估的基准,旨在根据领先人工智能科技巨头的政策,解决潜在的滥用场景。
大型语言模型(LLMs)是在大量数据上训练的,其中大部分数据是从互联网自动抓取的。这些数据包括包含大量通识知识的百科文件(例如维基百科),但也可能与用于评估LLMs的基准数据集重叠。因此,在可能泄漏到训练集中的测试分割上评估模型容易导致误导性结论。为了促进语言模型的准确评估,我们引入了一个名为RepLiQA的新测试数据集,适用于问答和主题检索任务。RepLiQA是一个包含五个测试集分割的集合,其中有四个在本出版之前尚未发布到互联网或暴露给LLM API。RepLiQA中的每个样本包括(1)由人工注释者创建的描述虚构场景(例如新闻文章)的参考文档;(2)关于文档主题的问题;(3)直接从文档信息中提取的真实答案;以及(4)包含答案的从参考文档中提取的段落。因此,只有当模型能够在提供的文档中找到相关内容时,才能生成准确答案。我们进行了一个大规模基准测试,包括几种最先进的LLMs,以揭示在上下文条件语言建模设置中各种类型和大小模型之间性能差异。RepLiQA的已发布分割可在此处找到:https://huggingface.co/datasets/ServiceNow/repliqa。
确保大型语言模型(LLMs)与人类价值观安全对齐对于它们成为翻译和问答等应用的关键至关重要。当前的对齐方法在处理动态用户意图和复杂目标时存在困难,使模型容易生成有害内容。我们提出了一种名为“安全算法”的无需训练的框架,可增强LLM在不同场景下的安全性:基础模型、监督微调模型(SFT)和编辑模型。安全算法包括有害方向消除以避免生成有害内容,以及安全对齐以促进生成安全响应。此外,我们提出了一个名为NoIntentEdit的数据集,突出显示可能损害模型安全性的编辑实例,如果不经意间使用的话。我们的实验表明,安全算法显著提高了安全性指标,减少了过度安全性,并保持了模型效用,在确保生成安全内容方面优于现有方法。
语言模型通常将原始文本标记为预定义词汇表中的子词标识序列,这是一个对错别字、长度变化敏感且基本忽略标记内部结构的过程,我们称之为标记化的诅咒。在本研究中,我们深入探讨了这些缺点,并证明大型语言模型(LLMs)仍然容易受到这些问题的影响。本研究系统地研究了这些挑战及其对LLMs的影响,通过三个关键研究问题进行:(1)复杂问题解决,(2)标记结构探测,以及(3)对错别字变化的弹性。我们的研究结果显示,扩展模型参数可以缓解标记化问题;然而,LLMs仍然受到错别字和其他文本格式变化引起的偏见影响。我们的实验表明,诸如BPE-dropout等子词正则化方法可以缓解这一问题。我们将发布我们的代码和数据以促进进一步研究。
大型语言模型(LLMs)的进步显著拓宽了自然语言处理应用的范围,多模态LLMs将这些能力扩展到整合和解释视觉数据。然而,现有的视觉语言模型(VLMs)基准主要关注单图像输入,忽略了多图像理解的关键方面。本文介绍了一个名为多图像关系基准(MIRB)的基准,旨在评估VLMs在比较、分析和推理多个图像时的能力。我们的基准包括四个类别:感知、视觉世界知识、推理和多跳推理。通过对各种开源和闭源模型进行全面评估,我们证明了虽然开源VLMs在单图像任务中表现接近GPT-4V,但在多图像推理任务中仍存在显著的性能差距。我们的研究结果还显示,即使是最先进的GPT-4V模型在我们的基准测试中也存在困难,突显了在这一领域需要进一步的研究和发展。我们相信我们的MIRB贡献可以作为开发下一代多模态模型的试验平台。
人工智能(AI)的发展在很大程度上得益于大型语言模型(LLMs)和大型多模态模型(LMMs)的进步,逐渐展示出在问题解决和科学发现方面潜在的认知推理能力(即AI4Science),这些能力曾经只属于人类智慧。为了全面评估当前模型在认知推理能力方面的表现,我们引入了OlympicArena,其中包括了11,163个双语问题,涵盖了纯文本和交错文本-图像两种模态。这些挑战涵盖了七个领域和62个国际奥林匹克比赛,严格审查以防止数据泄漏。我们认为奥林匹克竞赛问题中的挑战非常适合评估AI的认知推理能力,因为这些问题的复杂性和跨学科性对于解决复杂科学难题和促进发现至关重要。除了使用仅答案为标准跨不同学科评估性能之外,我们还从多个角度进行了详细实验和分析。我们深入研究了模型的认知推理能力、它们在不同模态下的表现以及它们在过程级评估中的结果,这对于需要复杂推理和长篇解决方案的任务至关重要。我们的广泛评估显示,即使像GPT-4o这样的先进模型也仅实现了39.97%的整体准确率,说明了当前AI在复杂推理和多模态整合方面的局限性。通过OlympicArena,我们旨在推动AI迈向超级智能,使其能够应对更复杂的科学及其他挑战。我们还提供了一套全面的资源来支持AI研究,包括基准数据集、开源注释平台、详细评估工具以及具有自动提交功能的排行榜。
尽管最近高保真人体重建技术取得了进展,但对密集捕捉图像或耗时的每个实例优化的要求显著阻碍了它们在更广泛场景中的应用。为了解决这些问题,我们提出了HumanSplat,它以通用的方式预测任何人的三维高斯Splatting属性,仅从单个输入图像中进行预测。具体而言,HumanSplat 包括一个二维多视图扩散模型和一个具有人体结构先验的潜在重建变换器,巧妙地在统一框架内整合几何先验和语义特征。进一步设计了一个包含人体语义信息的分层损失,以实现高保真纹理建模并更好地约束估计的多视图。对标准基准和野外图像的全面实验表明,HumanSplat 在实现逼真的新视角合成方面超越了现有的最先进方法。
表格数据——结构化、异构、类似电子表格的数据,具有行和列——在许多领域的实践中被广泛使用。然而,尽管最近的基础模型已经减少了在诸如语言建模和计算机视觉等领域开发特定任务数据集和预测器的需求,但这种迁移学习范式在表格领域并未产生类似的影响。在这项工作中,我们旨在缩小这一差距,并提出了 TabuLa-8B,一个用于表格预测的语言模型。我们定义了一种从 TabLib 语料库中提取大规模、高质量训练数据集的过程,提出了表格数据过滤和质量控制的方法。利用由 3.1M 个唯一表格中的超过 16 十亿行组成的结果数据集,我们对 Llama 3-8B 大型语言模型(LLM)进行微调,用于表格数据预测(分类和分箱回归),并使用了一种新颖的打包和注意力方案进行表格预测。通过在 329 个数据集的测试套件上进行评估,我们发现 TabuLa-8B 在未见过的表格上具有零猜测准确率,比随机猜测高出超过 15 个百分点,这是现有最先进的表格预测模型(例如 XGBoost、TabPFN)所无法实现的。在少样本设置(1-32 样本)中,在未对目标数据集进行任何微调的情况下,TabuLa-8B 比专门针对相同甚至多达 16 倍数据进行训练的 XGBoost 和 TabPFN 模型更准确 5-15 个百分点。我们将模型、代码和数据与本文一同发布。
为了评估大型语言模型(LLMs)中的知识,当前的方法是查询模型,然后评估其生成的响应。在这项工作中,我们探讨是否可以在模型生成任何文本之前进行评估。具体地说,是否可以仅通过其内部计算来估计模型对特定实体的了解程度?我们通过两项任务来研究这个问题:给定一个主题实体,目标是预测(a)模型回答关于该实体的常见问题的能力,以及(b)模型生成关于该实体的响应的事实性。对各种LLMs进行的实验表明,KEEN,一个简单的探针,通过内部主题表示进行训练,在这两个任务上取得成功 - 与模型每个主题的问答准确性和最近的开放式生成事实度指标FActScore有很强的相关性。此外,KEEN自然地与模型的避重就轻行为相一致,并忠实地反映了在微调后模型知识的变化。最后,我们展示了一个更具可解释性但同样表现出色的KEEN变体,它突出显示了一小组标记,这些标记与模型的缺乏知识相关。由于简单且轻量,KEEN可用于识别LLMs中实体知识的空白和聚类,并指导决策,例如通过检索来增强查询。
医学知识是依赖于语境的,需要在各种自然语言表达中保持一致的推理,尤其是对于药物名称,患者通常使用如阿德维尔(Advil)或泰诺(Tylenol)等商标名称,而非它们的通用等价物。为研究这一点,我们创建了一个新的稳健数据集RABBITS,通过医师专家注释交换品牌和通用药物名称,以评估在医学基准上性能差异。 我们评估了开源和基于API的LLMs在MedQA和MedMCQA上的表现,揭示了一致的性能下降,范围在1-10\%之间。此外,我们确定了这种脆弱性的一个潜在来源,即在广泛使用的预训练数据集中测试数据的污染。所有代码都可以在https://github.com/BittermanLab/RABBITS找到,HuggingFace排行榜可在https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard上找到。
文本到图像(T2I)扩散模型展示了令人印象深刻的图像生成能力。然而,它们的计算强度阻碍了资源受限的组织在对内部目标数据进行微调后部署T2I模型。虽然剪枝技术提供了减少T2I模型计算负担的潜在解决方案,但静态剪枝方法对所有输入提示使用相同的剪枝模型,忽视了不同提示的不同容量需求。动态剪枝通过为每个提示使用单独的子网络来解决这个问题,但它阻止了GPU上的批处理并行性。为了克服这些限制,我们引入了自适应提示定制剪枝(APTP),这是一种专为T2I扩散模型设计的新型基于提示的剪枝方法。我们方法的核心是一个提示路由模型,它学习确定输入文本提示所需的容量,并将其路由到一个架构代码,给定提示的总计算预算。每个架构代码代表一个针对分配给它的提示量身定制的专门模型,代码数量是一个超参数。我们使用对比学习训练提示路由器和架构代码,确保相似的提示被映射到附近的代码。此外,我们采用最优传输来防止代码坍缩为单一代码。我们通过使用CC3M和COCO作为目标数据集对Stable Diffusion(SD)V2.1进行剪枝来展示APTP的有效性。APTP在FID、CLIP和CMMD分数方面优于单模型剪枝基线。我们对APTP学习的聚类进行的分析表明,它们在语义上是有意义的。我们还展示APTP可以自动发现先前经验发现的对SD具有挑战性的提示,例如用于生成文本图像的提示,将它们分配给更高容量的代码。
语言模型的快速发展促使了更具挑战性基准的开发。当前的静态基准往往难以始终准确区分不同模型的能力,并且无法与真实用户偏好相一致。另一方面,像Chatbot Arena这样的实时众包平台收集了各种自然提示和用户反馈。然而,这些提示在复杂性上存在差异,反馈无法离线应用于新模型。为了确保基准跟上LLM发展的步伐,我们研究了如何评估基准在自信地区分模型和与人类偏好一致方面的能力。基于这些原则,我们开发了BenchBuilder,这是一个动态基准,从实时数据源中筛选高质量提示,以便对新的具有挑战性的提示进行离线评估。BenchBuilder确定了高质量提示的七个指标,如对领域知识的要求,并利用LLM注释器从各种主题集群中选择高质量提示的子集。LLM评估过程利用LLM评审员确保完全自动化、高质量且不断更新的基准。我们将BenchBuilder应用于Chatbot Arena的提示,创建了Arena-Hard-Auto v0.1:来自各种任务的500个具有挑战性的用户提示。Arena-Hard-Auto v0.1提供比MT-Bench更紧凑的3倍置信区间,并以仅25美元的成本且无需人工标注者,实现了与人类偏好排名的最新89.1%一致性。BenchBuilder流程增强了评估基准,并为开发人员提供了一个宝贵的工具,使他们能够从大量数据中轻松提取高质量基准。
二值化是一种将权重参数转换为二进制值的有效策略,用于减小大型语言模型(LLMs)的尺寸。然而,传统的二值化技术显著降低了LLMs的语言效果。为了解决这个问题,我们引入了一种名为“混合尺度”(BinaryMoS)的新型二值化技术。与传统方法不同,BinaryMoS利用多个尺度专家来处理二进制权重,动态地合并这些专家以为每个标记自适应生成尺度因子。这种标记自适应方法通过使二值化LLMs的表示能力提升,实现了对二进制权重值的上下文调整。此外,由于这种自适应过程仅涉及尺度因子而不是整个权重矩阵,BinaryMoS保持了与传统静态二值化方法相似的压缩效率。我们的实验结果显示,BinaryMoS在各种自然语言处理任务中超越了传统的二值化技术,甚至优于2位量化方法,同时保持了与静态二值化技术相似的模型大小。
直接偏好对齐(DAP)已成为一种有前途的范式,用于将大型语言模型(LLMs)与人类偏好进行对齐,这些偏好来自预先收集的离线偏好数据集。尽管最近的研究表明现有的离线DAP方法可以直接受益于在线训练样本,我们强调需要开发特定的在线DAP算法,以充分利用在线训练的力量。具体而言,我们确定学习的LLM应遵循行为LLM的行为接近性,该行为LLM收集训练样本。为此,我们提出了在接近行为LLM的在线偏好优化(BPO),强调构建适当的信任区域以实现LLM对齐的重要性。 我们进行了大量实验,通过将其与各种DAP方法集成,验证了我们方法的有效性和适用性,在使用相同数量的偏好数据进行训练时,在各种任务中实现了显著的性能改进。即使只引入一个额外的数据收集阶段,我们的在线BPO也将其离线DAP基线从72.0%提高到TL;DR上的80.2%,从82.2%提高到Anthropic Helpfulness上的89.1%,在与人类参考文本的胜率方面。
视频编辑是数字媒体的基石,涵盖娱乐、教育和专业交流等领域。然而,先前的方法往往忽视全局和局部背景的全面理解的必要性,导致时空维度上的编辑不准确和不一致,尤其是对于长视频而言。在本文中,我们介绍了VIA,一个统一的时空视频适应框架,用于全局和局部视频编辑,推动了对长达一分钟视频进行一致编辑的极限。首先,为了确保单个帧内的局部一致性,VIA的基础是一种新颖的测试时编辑适应方法,该方法调整了预训练的图像编辑模型,以提高潜在编辑方向与文本指令之间的一致性,并调整了掩码潜变量以实现精确的局部控制。此外,为了在整个视频序列上保持全局一致性,我们引入了时空适应,该方法调整了关键帧中的一致性注意力变量,并在整个序列中策略性地应用它们以实现编辑效果。大量实验证明,与基线方法相比,我们的VIA方法产生的编辑更忠实于原始视频,在时空上更连贯,并在局部控制上更精确。更重要的是,我们展示了VIA可以在几分钟内实现一致的长视频编辑,释放了在长视频序列上进行高级视频编辑任务的潜力。
评估大型语言模型(LLMs)在解决多样化任务中的有效性对于理解它们的优势和劣势至关重要。传统的评估技术通常会统一地应用单一提示策略于数据集,而不考虑任务复杂度的差异。我们引入了分层提示分类法(HPT),这是一种使用由五种独特提示策略组成的分层提示框架(HPF)的分类法,这些策略从简单到复杂排列,以更精确地评估LLMs并提供更清晰的视角。该分类法根据分类法规则为数据集和LLMs分配一个分数,称为分层提示分数(HP-Score),以提供对它们解决多样化任务能力的微妙理解,并提供任务复杂度的通用度量。此外,我们引入了自适应分层提示框架,该框架自动选择适当的提示策略来处理每个任务。本研究使用四个经过指令调整的LLMs,分别为Llama 3 8B、Phi 3 3.8B、Mistral 7B和Gemma 7B,跨四个数据集:BoolQ、CommonSenseQA(CSQA)、IWSLT-2017 en-fr(IWSLT)和SamSum,比较了手动和自适应分层提示框架。实验证明了HPT的有效性,提供了一种可靠的比较不同任务和LLM能力的方法。本文促进了一个可用于评估数据集复杂度和LLMs能力的通用评估指标的发展。手动HPF和自适应HPF的实施已公开可用。
现在,利用视觉的语言模型(VLMs)用于构建能够在真实环境中采取行动的自主多模态代理。在本文中,我们展示了多模态代理带来了新的安全风险,尽管攻击代理比以往更具挑战性,因为对环境的访问和了解有限。我们的攻击利用对抗性文本字符串来引导基于梯度的扰动,作用于环境中的一个触发图像:(1)我们的字幕攻击针对白盒字幕生成器,如果它们被用于将图像处理为字幕并作为额外输入提供给VLM;(2)我们的CLIP攻击同时攻击一组CLIP模型,这可能会转移到专有的VLM。为了评估这些攻击,我们精心策划了VisualWebArena-Adv,这是基于VisualWebArena的一组基于网络的多模态代理任务的对抗性任务集。在单个图像上的L-无穷范数为16/256时,字幕攻击可以使一个字幕增强的GPT-4V代理以75%的成功率执行对抗性目标。当我们移除字幕生成器或使用GPT-4V生成自己的字幕时,CLIP攻击的成功率分别为21%和43%。对基于其他VLMs的代理进行的实验,如Gemini-1.5、Claude-3和GPT-4o,显示了它们在鲁棒性上的有趣差异。进一步的分析揭示了几个影响攻击成功的关键因素,我们还讨论了对防御的影响。项目页面:https://chenwu.io/attack-agent 代码和数据:https://github.com/ChenWu98/agent-attack
在本文中,我们指出次优的噪声数据映射会导致扩散模型训练缓慢。在扩散训练期间,当前方法会在整个噪声空间中扩散每个图像,导致在噪声层的每个点上都混合了所有图像。我们强调,这种随机混合的噪声数据映射使得扩散模型中去噪函数的优化变得复杂。受物理学中不相溶现象的启发,我们提出了不相溶扩散,这是一种简单而有效的方法,用于改善随机混合的噪声数据映射。在物理学中,相容性可以根据各种分子间力而变化。因此,不相容性意味着分子源的混合是可区分的。受此启发,我们提出了一种分配-然后-扩散的训练策略。具体来说,在将图像数据扩散到噪声之前,我们通过在小批量中最小化总图像-噪声对距离来为图像数据分配扩散目标噪声。这种分配函数类似于外部力,用于分离图像的可扩散区域,从而减轻扩散训练中固有的困难。我们的方法非常简单,只需要一行代码来限制每个图像的可扩散区域,同时保留噪声的高斯分布。这确保每个图像只投影到附近的噪声。为了解决分配算法的高复杂性,我们采用了量化分配方法,将计算开销降低到可以忽略的水平。实验证明,我们的方法在CIFAR数据集上对一致性模型和DDIM实现了高达3倍的更快训练速度,在CelebA数据集上对一致性模型实现了高达1.3倍的更快速度。此外,我们对不相溶扩散进行了彻底分析,阐明了它如何提高扩散训练速度同时改善保真度。
大型文本生成音乐模型取得了显著进展,促进了从提供的文本提示生成高质量且多样化的音乐作品。然而,输入的文本提示可能无法准确捕捉用户需求,特别是当目标是生成体现自指定参考集合中的特定概念的音乐时。在本文中,我们提出了一种新颖的定制文本生成音乐方法,可以从两分钟的参考音乐中捕捉概念并生成符合该概念的新音乐作品。我们通过使用参考音乐对预训练的文本生成音乐模型进行微调来实现这一目标。然而,直接微调所有参数会导致过拟合问题。为了解决这个问题,我们提出了一个关键参数调整方法,使模型能够吸收新概念同时保留其原始生成能力。此外,当向预训练模型引入多个概念时,我们发现潜在的概念冲突。我们提出了一个概念增强策略来区分多个概念,使经过微调的模型能够同时生成包含单个或多个概念的音乐。由于我们是第一个研究定制音乐生成任务的团队,我们还为这一新任务引入了一个新数据集和评估协议。我们提出的Jen1-DreamStyler在定性和定量评估中均优于几个基线模型。演示将在https://www.jenmusic.ai/research#DreamStyler 上提供。
在当前大型语言模型(LLMs)快速发展的时代,超对齐(Superalignment)已成为一个重要且广泛讨论的问题,其中人类是超人类模型的弱监督者。最近的研究通过使用弱模型监督强模型初步研究了这一问题。研究发现,弱监督的强学生可以始终胜过弱教师朝向对齐目标,导致了弱到强的泛化现象。然而,我们担心在这一令人期待的现象背后,是否存在弱到强的欺骗问题,即强模型可能通过在弱模型已知领域展现良好对齐的行为,但在弱模型不了解的情况下产生不对齐的行为。因此,我们首次尝试在一个具体但现实的多目标对齐案例中探讨这一安全问题,其中一些对齐目标可能彼此冲突(例如,帮助性与无害性)。这种冲突可能导致强模型在一个对齐维度上欺骗弱模型,以在另一个对齐维度上获得高奖励。我们在奖励建模任务和偏好优化场景上的实验表明:(1)存在弱到强的欺骗;(2)随着弱模型和强模型之间能力差距的增加,欺骗现象可能加剧。我们还讨论了潜在解决方案,并发现通过中间模型的引导可以在一定程度上减轻欺骗。我们的工作强调了更加关注超对齐真实可靠性的迫切需求。
本文介绍了一种基于子空间的低秩适应(LoRA)方法,该方法在计算效率高、易于实现,并且适用于大型语言、多模态和扩散模型。首先,我们将LoRA的权重等效分解为两个子空间,并发现简单地混合它们可以提高性能。为了研究这种现象,我们通过一个细粒度的子空间视角重新审视它,表明这种修改等效于使用一个固定的混合器来融合子空间。为了更灵活,我们联合学习了混合器和原始的LoRA权重,并将该方法称为子空间混合LoRA(MoSLoRA)。MoSLoRA在不同模态的任务上始终优于LoRA,包括常识推理、视觉指导微调和主题驱动的文本到图像生成,展示了其有效性和稳健性。代码可在 https://github.com/wutaiqiang/MoSLoRA{github} 获取。