每日精选AI研究论文及翻译
我们介绍了phi-3-mini,这是一个拥有38亿参数的语言模型,训练数据包括3.3万亿个标记。无论是从学术基准还是内部测试的结果来看,其整体性能与Mixtral 8x7B和GPT-3.5等模型不相上下(例如,phi-3-mini在MMLU上达到69%,在MT-bench上达到8.38),尽管规模小到可以部署在手机上。创新完全体现在我们用于训练的数据集上,这是phi-2使用数据的扩展版本,由经过严格筛选的网络数据和合成数据组成。该模型还进一步针对鲁棒性、安全性和聊天格式进行了优化。我们还提供了一些初始的参数缩放结果,使用了分别训练了48万亿标记的7B和14B模型,称为phi-3-small和phi-3-medium,它们比phi-3-mini具有更强的性能(例如,分别在MMLU上达到75%和78%,在MT-bench上达到8.7和8.9)。
Meta的LLaMA系列已成为最强大的开源大型语言模型(LLM)系列之一。值得注意的是,LLaMA3模型最近发布,并在超大规模预训练的15T数据令牌上取得了令人瞩目的性能。鉴于在资源有限的情况下对LLMs进行低比特量化的广泛应用,我们探讨了将LLaMA3量化为低比特宽度时的能力。这一探索有潜力揭示LLaMA3和其他即将推出的LLMs在低比特量化方面的新见解和挑战,特别是在解决LLM压缩中遇到的性能下降问题方面。具体而言,我们评估了LLaMA3的10种现有后训练量化和LoRA微调方法在1-8比特和不同数据集上,全面揭示了LLaMA3的低比特量化性能。我们的实验结果表明,在这些情景下,LLaMA3仍然存在相当大的性能下降,特别是在超低比特宽度下。这突显了在未来发展中需要弥合的低比特宽度下的显著性能差距。我们期望这一经验研究将有助于推进未来模型,推动LLMs以更高准确度实现更低比特宽度的实用性。我们的项目发布在https://github.com/Macaronlin/LLaMA3-Quantization,并且量化的LLaMA3模型发布在https://huggingface.co/LLMQ。
当今的大型语言模型(LLMs)容易受到提示注入、越狱和其他攻击的影响,这些攻击使对手能够覆盖模型的原始指令并插入恶意提示。在这项工作中,我们认为导致这些攻击的主要漏洞之一是LLMs经常将系统提示(例如来自应用程序开发人员的文本)与来自不受信任的用户和第三方的文本视为同等优先级。为了解决这个问题,我们提出了一个指令层次结构,明确定义了模型在不同优先级指令冲突时应该如何行为。然后,我们提出了一种数据生成方法来展示这种层次指令遵循行为,教导LLMs有选择地忽略较低权限的指令。我们将这种方法应用到GPT-3.5上,结果显示它极大地增加了鲁棒性,即使对于训练过程中未见过的攻击类型,同时对标准功能的影响也很小。
机器人流程自动化(RPA)这一快速发展的领域在自动化重复性流程方面取得了显著进展,但在需要用户提出的即兴或不可预测任务的情况下,其效果会减弱。本文介绍了一种新方法FlowMind,利用大型语言模型(LLMs)如生成式预训练变换器(GPT)的能力来解决这一局限,并创建一个自动工作流生成系统。在FlowMind中,我们提出了一个用于讲座的通用提示配方,帮助将LLM的推理与可靠的应用程序编程接口(APIs)联系起来。通过这种方式,FlowMind不仅减轻了LLMs中幻觉的常见问题,还消除了LLMs与专有数据或代码之间的直接交互,从而确保了信息的完整性和保密性 - 这是金融服务中的基石。FlowMind通过展示自动生成工作流的高级描述进一步简化了用户交互,使用户能够有效地检查并提供反馈。我们还介绍了NCEN-QA,这是金融领域的一个新数据集,用于对基金的N-CEN报告进行问答任务的基准测试。我们使用NCEN-QA来评估由FlowMind生成的工作流与FlowMind的基线和消融变体的性能。我们展示了FlowMind的成功,提出的讲座配方中每个组件的重要性,以及用户交互和反馈在FlowMind中的有效性。
最近,一系列考虑扩散的蒸馏算法已经出现,旨在减轻与扩散模型(DMs)多步推理过程相关的计算开销。当前的蒸馏技术通常可分为两个不同方面:i)ODE轨迹保留;和ii)ODE轨迹重构。然而,这些方法存在严重的性能下降或领域转移问题。为了解决这些限制,我们提出了Hyper-SD,这是一个新颖的框架,协同地融合了ODE轨迹保留和重构的优势,同时在步骤压缩过程中保持接近无损性能。首先,我们引入了轨迹分段一致性蒸馏,逐步在预定义的时间步段内进行一致性蒸馏,有助于从更高阶的角度保留原始ODE轨迹。其次,我们结合人类反馈学习,提高了模型在低步骤范围内的性能,并减轻了蒸馏过程中造成的性能损失。第三,我们整合了得分蒸馏,进一步提高了模型的低步骤生成能力,并首次尝试利用统一的LoRA来支持所有步骤的推理过程。大量实验和用户研究表明,Hyper-SD在SDXL和SD1.5的1至8个推理步骤中均实现了SOTA性能。例如,Hyper-SDXL在1步推理中的CLIP得分和Aes得分分别比SDXL-Lightning高出+0.68和+0.51。
本文描述了MAIA,一种多模态自动可解释性代理。MAIA是一个系统,利用神经模型来自动化神经模型理解任务,如特征解释和故障模式发现。它为一个预训练的视觉-语言模型配备了一组工具,支持对其他模型的子组件进行迭代实验,以解释它们的行为。这些工具包括人类可解释性研究人员常用的工具:用于合成和编辑输入、从真实世界数据集中计算最大激活示例、以及总结和描述实验结果。MAIA提出的可解释性实验将这些工具组合起来描述和解释系统行为。我们评估了MAIA在计算机视觉模型中的应用。我们首先表征了MAIA描述(神经元级)图像学习表示中特征的能力。在多个训练模型和一个具有配对地面真实描述的新颖合成视觉神经元数据集上,MAIA生成的描述与专业人类实验者生成的描述相当。然后,我们展示了MAIA可以帮助完成另外两个可解释性任务:减少对虚假特征的敏感性,以及自动识别可能被错误分类的输入。
多模基础模型的快速演进展示了在视觉-语言理解和生成方面取得的显著进展,例如我们之前的工作SEED-LLaMA。然而,由于模型对于各种用户指令的有效响应能力有限以及与多样化视觉数据进行交互的能力,导致其能力与实际应用之间仍存在差距。在这项工作中,我们专注于通过整合两个增强功能来弥合这一差距:(1)理解任意大小和比例的图像,以及(2)实现多粒度图像生成。我们提出了一个统一且多才多艺的基础模型,名为SEED-X,能够为理解和生成任务建模多粒度视觉语义。除了在公共基准测试中取得的竞争结果外,SEED-X在经过指令调整后展示了其在各个领域处理实际应用的有效性。我们希望我们的工作能激发未来研究多才多艺的多模基础模型在实际应用中可以取得什么成就。模型、代码和数据集将在https://github.com/AILab-CVC/SEED-X发布。
一致性模型在促进高效图像/视频生成方面展现出卓越能力,实现合成所需的采样步骤最小化。它已被证明在减轻与扩散模型相关的计算负担方面具有优势。然而,在音乐生成领域,一致性模型的应用仍然鲜为人知。为填补这一空白,我们提出了音乐一致性模型(MusicCM),它利用一致性模型的概念,高效地合成音乐片段的mel频谱图,保持高质量的同时最小化采样步骤的数量。在现有的文本到音乐扩散模型基础上,MusicCM模型融合了一致性蒸馏和对抗鉴别器训练。此外,我们发现通过整合具有共享约束的多个扩散过程生成连贯的延续音乐是有益的。实验结果显示了我们的模型在计算效率、保真度和自然度方面的有效性。值得注意的是,MusicCM仅需四个采样步骤就能实现无缝音乐合成,例如,每分钟音乐片段仅需一秒,展示了实时应用的潜力。
本文介绍了MultiBooth,一种用于从文本生成图像中进行多概念定制的新颖高效技术。尽管定制生成方法取得了显著进展,特别是扩散模型取得成功,但现有方法在多概念场景中往往面临概念准确性低和推理成本高的问题。MultiBooth通过将多概念生成过程分为两个阶段来解决这些问题:单概念学习阶段和多概念整合阶段。在单概念学习阶段,我们采用多模态图像编码器和高效概念编码技术来学习每个概念的简洁且具有区分性的表示。在多概念整合阶段,我们使用边界框来定义交叉注意力图中每个概念的生成区域。这种方法使得能够在其指定区域内创建各个概念,从而促进了多概念图像的形成。这一策略不仅提高了概念准确性,还降低了额外的推理成本。MultiBooth在定性和定量评估中均超越了各种基线,展示了其卓越的性能和计算效率。项目页面:https://multibooth.github.io/
在陡峭环境中稳定行走是四足机器人的基本能力,要求其具备抵抗各种外部干扰的能力。然而,最近基于学习的策略仅使用基本领域随机化来提高学习策略的鲁棒性,这并不能保证机器人具有足够的干扰抵抗能力。本文提出将学习过程建模为演员与新引入的干扰者之间的对抗交互,并通过 H_{infty} 约束确保它们的优化。与最大化折扣总体奖励的演员相反,干扰者负责产生有效的外部力,并通过最大化任务奖励与其预设值之间的误差,即每次迭代中的“成本”来进行优化。为了保持演员和干扰者之间的联合优化稳定,我们的 H_{infty} 约束规定了成本与外部力强度之间比率的界限。通过训练阶段的相互作用,演员可以获得应对日益复杂物理干扰的能力。我们在 Unitree Aliengo 机器人上验证了我们方法的鲁棒性,还在 Unitree A1 机器人上进行了更具挑战性的任务验证,其中四足机器人被期望仅依靠后腿进行行走,就像是双足机器人一样。模拟的定量结果显示相对基线的改进,展示了该方法及每个设计选择的有效性。另一方面,真实机器人实验在各种地形,包括楼梯、高平台、坡道和湿滑地形上干扰时,定性展示了策略的鲁棒性。所有代码、检查点和实际部署指南将公开发布。
我们致力于从描绘场景的图像集中估计摄像机参数的任务。流行的基于特征的运动结构(SfM)工具通过增量重建来解决这一任务:它们重复对稀疏的3D点进行三角测量,并将更多摄像机视图注册到稀疏点云中。我们重新解释增量式运动结构为对视觉重定位器的迭代应用和细化,即一种将新视图注册到重建当前状态的方法。这种视角使我们能够研究不基于局部特征匹配的替代视觉重定位器。我们展示了一种称为场景坐标回归的基于学习的重定位方法,它使我们能够从未定位的图像中构建隐式的神经场景表示。与其他基于学习的重建方法不同,我们不需要姿势先验或顺序输入,并且我们可以高效地优化数千幅图像。我们的方法ACE0(ACE Zero)通过新颖的视图合成展示了与基于特征的SfM相当的摄像机姿势估计精度。项目页面:https://nianticlabs.github.io/acezero/