每日精选AI研究论文及翻译
本文旨在提升SwiftBrush的性能,这是一种著名的一步式文本到图像扩散模型,使其能够与多步式稳定扩散模型相竞争。最初,我们探讨了SwiftBrush和SD Turbo之间的质量-多样性权衡:前者擅长图像多样性,而后者擅长图像质量。这一观察结果激发了我们在训练方法中提出的修改,包括更好的权重初始化和高效的LoRA训练。此外,我们引入了一种新颖的夹紧CLIP损失,增强了图像与文本的对齐,并提高了图像质量。值得注意的是,通过结合使用高效LoRA和完整训练的模型的权重,我们实现了一个新的最先进的一步式扩散模型,实现了8.14的FID,并超越了所有基于GAN和多步稳定扩散模型。评估代码可在以下链接找到:https://github.com/vinairesearch/swiftbrushv2。
近年来,基础模型(FMs)如大型语言模型(LLMs)和潜在扩散模型(LDMs)深刻影响了包括音乐在内的多个领域。本综合评估审视了音乐领域最先进的预训练模型和基础模型,涵盖了表示学习、生成学习和多模态学习。我们首先将音乐在各行业中的重要性置于背景中,并追溯了音乐领域人工智能的演变。通过详细描述基础模型所针对的模态,我们发现许多音乐表示在FM发展中尚未得到充分探索。接着,我们强调了先前方法在多样化音乐应用上缺乏灵活性,以及FMs在音乐理解、生成和医疗应用中的潜力。通过全面探讨模型预训练范式、架构选择、标记化、微调方法和可控性的细节,我们强调了应该得到充分探索的重要主题,如指导调整和上下文学习、缩放定律和新兴能力,以及长序列建模等。一个专门的部分提供了对音乐代理的见解,伴随着对数据集和评估的深入分析,这对于预训练和下游任务至关重要。最后,通过强调道德考虑的重要性,我们主张未来针对音乐的FM研究应更多关注诸如可解释性、透明性、人类责任和版权问题等议题。本文提供了关于音乐FMs未来挑战和趋势的见解,旨在塑造人工智能与音乐领域人类合作的发展轨迹。
在软件工程中,解决GitHub问题是一项关键任务,最近在工业界和学术界都受到了重视。在这一任务中,SWE-bench已被发布用于评估大型语言模型(LLMs)的问题解决能力,但目前仅专注于Python版本。然而,支持更多编程语言同样重要,因为工业界对此有很强的需求。作为迈向多语言支持的第一步,我们开发了SWE-bench的Java版本,称为SWE-bench-java。我们已经公开发布了数据集,以及相应的基于Docker的评估环境和排行榜,这些将在接下来的几个月内持续维护和更新。为了验证SWE-bench-java的可靠性,我们实现了一个经典方法SWE-agent,并在其上测试了几个强大的LLMs。众所周知,开发高质量的多语言基准测试是耗时且劳动密集的,因此我们欢迎通过拉取请求或合作来加速其迭代和完善,为完全自动化编程铺平道路。
视觉生成模型的快速发展需要高效可靠的评估方法。Arena 平台汇总用户对模型比较的投票,可以根据人类偏好对模型进行排名。然而,传统的 Arena 方法虽然已经建立,但需要大量比较才能收敛排名,并且容易受到投票偏好噪音的影响,这表明需要针对当代评估挑战量身定制更好的方法。在本文中,我们介绍了 K-Sort Arena,这是一个高效可靠的平台,基于一个关键洞察:图像和视频比文本具有更高的感知直觉性,能够快速评估多个样本。因此,K-Sort Arena 使用 K 次比较,允许 K 个模型参与自由竞争,比成对比较获得更丰富的信息。为了增强系统的鲁棒性,我们利用概率建模和贝叶斯更新技术。我们提出了一种基于探索-利用的对手匹配策略,以促进更具信息性的比较。在我们的实验中,K-Sort Arena 的收敛速度比广泛使用的 ELO 算法快了 16.3 倍。为了进一步验证其优越性并获得全面的排行榜,我们通过众包评估收集了大量尖端的文本到图像和文本到视频模型的人类反馈。由于其高效性,K-Sort Arena 可以持续整合新兴模型,并以最少的投票更新排行榜。我们的项目经过数月的内部测试,现在可在 https://huggingface.co/spaces/ksort/K-Sort-Arena 上使用。
云端专有大型语言模型(LLMs)的广泛应用带来了重大挑战,包括操作依赖性、隐私问题和持续互联网连接的必要性。在这项工作中,我们介绍了一个名为“LlamaDuo”的LLMOps管道,用于将服务型LLMs的知识和能力无缝迁移到更小、本地可管理的模型。这一管道对于确保在操作故障、严格的隐私政策或离线需求下的服务连续性至关重要。我们的LlamaDuo涉及使用由后者生成的合成数据集对小语言模型进行微调,以针对服务LLM。如果微调模型的性能不符合预期,可以通过进一步使用服务LLM创建的额外相似数据进行微调来增强其性能。这种迭代过程确保较小的模型最终可以在特定下游任务中与甚至超越服务LLM的能力,为在受限环境中管理AI部署提供了实用且可扩展的解决方案。我们进行了与领先的LLMs的广泛实验,以展示LlamaDuo在各种下游任务中的有效性、适应性和经济性。我们的管道实现可在https://github.com/deep-diver/llamaduo上找到。
寻找语言模型预训练的最佳学习率是一项具有挑战性的任务。这不仅因为学习率、批量大小、训练标记数量、模型大小和其他超参数之间存在复杂的相关性,而且因为对拥有数十亿或数万亿参数的大型语言模型进行超参数搜索成本过高。最近的研究提出使用小型代理模型和小型语料库进行超参数搜索,并将最佳参数转移到大型模型和大型语料库中。虽然零次迁移性在理论上和经验上已被证明适用于与模型大小相关的超参数,如深度和宽度,但从小型语料库到大型语料库的零次迁移尚未得到充分探讨。在本文中,我们研究了最近提出的WSD调度器的最佳学习率、批量大小和训练标记数量之间的相关性。经过数千次小型实验,我们发现了变量之间的幂律关系,并展示了其在模型大小之间的可迁移性。基于这一观察,我们提出了一种新的学习率调度器,Power调度器,它对训练标记数量和批量大小保持不可知性。实验证明,将Power调度器与最大更新参数化(muP)相结合,可以在不考虑训练标记数量、批量大小、模型大小甚至模型架构的情况下始终实现出色的性能。我们使用Power调度器训练的3B密集型和MoE模型达到了与最先进的小型语言模型相当的性能。我们在https://ibm.biz/BdKhLa 上开源了这些预训练模型。
在《反恐精英:全球攻势》(CS:GO)等多人第一人称射击游戏中,协调移动是高水平战略游戏的关键组成部分。然而,团队协作的复杂性和流行游戏地图中存在的各种条件使得为每种情况编写手工制作的移动策略变得不切实际。我们展示了可以采用数据驱动的方法为CS:GO创建类似人类的移动控制器。我们整理了一个团队移动数据集,包括123小时的专业游戏轨迹,并使用该数据集训练了一个基于Transformer的移动模型,为游戏中“反扑”回合的所有玩家生成类似人类的团队移动。重要的是,移动预测模型高效。在单个CPU核心上,为所有玩家执行推断每个游戏步骤的时间不到0.5毫秒(摊销成本),使其在当今商业游戏中可行。人类评估者评估表明,我们的模型比商业可用的机器人和专家编写的程序化移动控制器更像人类(根据“类人”TrueSkill评分高出16%至59%)。通过涉及游戏内机器人自我对战的实验,我们展示了我们的模型执行简单形式的团队合作,减少了常见的移动错误,并产生了类似于专业CS:GO比赛中观察到的移动分布、玩家寿命和击杀位置。
视频生成模型在电影制作等领域具有重要潜力。然而,当前的视频扩散模型需要高计算成本,并且由于视频生成任务的高复杂性而产生次优结果。本文提出了ConFiner,一种高效高质量的视频生成框架,将视频生成分解为更简单的子任务:结构控制和时空细化。它可以利用一系列现成的扩散模型专家生成高质量视频,每个专家负责一个解耦的子任务。在细化过程中,我们引入了协调去噪,可以将多个扩散专家的能力合并为单一采样。此外,我们设计了ConFiner-Long框架,可以在ConFiner上采用三种约束策略生成长连贯视频。实验结果表明,仅需推断成本的10\%,我们的ConFiner在所有客观和主观指标上均超过了代表性模型,如Lavie和Modelscope。而ConFiner-Long可以生成高质量连贯的长视频,最多可达600帧。
在过去的一年中,多模态大型语言模型(MM-LLMs)取得了显著进展,在各种任务中展现出令人印象深刻的性能。然而,要真正实现人工智能的民主化,模型必须具备强大的能力,并能够在大多数人可以访问的小型计算环境中高效运行。作为这一探索的一部分,我们推出了 LLaVaOLMoBitnet1B - 第一个能够接受图像+文本输入并生成连贯文本响应的三值多模态语言模型。该模型完全开源,附带训练脚本,以鼓励在这一领域进行进一步研究。本技术报告重点介绍了训练过程、评估细节、三值模型面临的挑战以及未来的机遇。模型链接:https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
随着大型语言模型(LLMs)的广泛应用,对全球规模的服务系统的需求急剧增加,这些系统需要数万个GPU不断为数亿用户提供服务。因此,吞吐量(在合理的延迟约束下)已成为决定服务系统性能的关键指标。为了提高吞吐量,已经探索了各种设备间并行性的方法(例如数据、张量、管道)。然而,现有方法并未考虑在单个设备内重叠利用不同资源,导致资源利用不足和性能亚优化。 我们提出了一种新型服务框架NanoFlow,它利用设备内部并行性,通过操作协同调度在单个设备内重叠利用计算、内存和网络等资源。为了利用设备内部并行性,NanoFlow引入了两个关键创新:首先,NanoFlow将请求分割为操作粒度的纳米批次,打破了LLM推断中顺序操作的依赖关系,实现了重叠执行;然后,为了从重叠中获益,NanoFlow使用了一个具有执行单元调度的操作级流水线,该流水线将设备的功能单元进行划分,并在每个单元内同时执行不同的操作。NanoFlow通过参数搜索算法自动设置流水线,从而可以轻松将NanoFlow移植到不同的模型上。我们在NVIDIA GPU上实现了NanoFlow,并评估了几个热门模型(如LLaMA-2-70B、Mixtral 8x7B、LLaMA-3-8B等)的端到端服务吞吐量。在实际工作负载下,NanoFlow相比于最先进的服务系统提供了1.91倍的吞吐量提升,实现了跨移植模型达到59%至72%的最佳吞吐量。
大型语言模型(LLMs)已经彻底改变了语言处理,为多个应用程序提供了出色的结果。然而,在边缘设备上部署LLMs会面临一些挑战,如内存、能耗和计算成本,这限制了它们在诸如手机等设备上的广泛应用。一种有前途的解决方案是减少用于表示权重和激活的位数。尽管现有研究在将LLMs量化为较低位宽(例如4位权重)方面取得了部分成功,但将激活量化超过16位通常会导致大量计算开销,因为设备上的量化支持不足,或者会导致显著的准确性下降。然而,8位激活对于在设备上部署非常有吸引力,因为这将使LLMs能够充分利用手机友好型硬件,例如神经处理单元(NPUs)。在这项工作中,我们首次尝试使用仅整数量化来促进LLMs在设备上的部署。我们首先研究了现有量化方法在设备上部署方面的局限性,特别关注激活量化。然后,我们通过引入一种名为MobileQuant的简单后训练量化方法来解决这些限制,该方法通过联合优化权重转换和激活范围参数以端到端的方式扩展了先前的权重等效转换方法。MobileQuant通过以下方式展现了优于现有方法的能力:1)在广泛的LLMs基准测试中实现几乎无损量化,2)与当前设备上量化策略相比,减少了20\%-50\%的延迟和能耗,3)需要有限的计算预算,4)与手机友好的计算单元(如NPU)兼容。
过渡视频在媒体制作中发挥着至关重要的作用,增强了视觉叙事的流畅性和连贯性。传统方法如变形通常缺乏艺术吸引力,需要专业技能,限制了它们的有效性。基于扩散模型的视频生成的最新进展为创建过渡提供了新的可能性,但面临诸如帧间关系建模不足和内容突变等挑战。我们提出了一种新颖的无需训练的过渡视频生成(TVG)方法,使用视频级扩散模型来解决这些限制,无需额外训练。我们的方法利用高斯过程回归(GPR)来建模潜在表示,确保帧间过渡平滑而动态。此外,我们引入基于插值的条件控制和频率感知的双向融合(FBiF)架构,以增强时间控制和过渡可靠性。对基准数据集和自定义图像对的评估表明,我们的方法在生成高质量平滑过渡视频方面的有效性。代码提供在https://sobeymil.github.io/tvg.com。
像ChatGPT和Gemini这样的大型语言模型(LLMs)已经显著推动了自然语言处理的发展,使得诸如聊天机器人和自动内容生成等各种应用成为可能。然而,这些模型可能会被恶意个体利用,他们会精心设计有害或不道德的提示,以引发有害或不道德的回应。这些个体通常会采用越狱技术来绕过安全机制,突显了对强大的有害提示检测方法的需求。现有的检测技术,无论是黑盒还是白盒,都面临着与有害提示的多样性、可扩展性和计算效率相关的挑战。为此,我们提出了ToxicDetector,这是一种轻量级的灰盒方法,旨在高效地检测LLMs中的有害提示。ToxicDetector利用LLMs创建有害概念提示,使用嵌入向量形成特征向量,并采用多层感知器(MLP)分类器进行提示分类。我们对LLama模型的各个版本、Gemma-2以及多个数据集的评估表明,ToxicDetector实现了高达96.39\%的准确率和2.00\%的低误报率,优于现有技术。此外,ToxicDetector每个提示的处理时间为0.0780秒,非常适用于实时应用。ToxicDetector实现了高准确性、高效性和可扩展性,使其成为LLMs中有害提示检测的实用方法。
现有的单图像人体重建工作由于训练数据不足或三维不一致性而缺乏强大的泛化能力,缺乏全面的多视角知识。在本文中,我们介绍了MagicMan,这是一个专门针对人体的多视角扩散模型,旨在从单个参考图像生成高质量的新视角图像。作为其核心,我们利用预训练的二维扩散模型作为生成先验以实现泛化能力,同时使用参数化的SMPL-X模型作为三维身体先验以促进三维意识。为了解决在实现改进的三维人体重建时保持一致性的关键挑战,我们首先引入了混合多视角注意力,以促进不同视角之间的高效和全面信息交换。此外,我们提出了一种几何感知的双分支,以在RGB和法线域同时进行生成,通过几何线索进一步增强一致性。最后,为了解决由于SMPL-X估计不准确而与参考图像冲突而引起的不规则问题,我们提出了一种新颖的迭代细化策略,逐渐优化SMPL-X的准确性,同时提高生成的多视角的质量和一致性。大量实验结果表明,我们的方法在新视角合成和随后的三维人体重建任务中明显优于现有方法。