每日精选AI研究论文及翻译
尽管大型语言模型(LLMs)在各种任务上展现出令人印象深刻的能力,但它们仍然在涉及复杂推理和规划的情景中面临困难。最近的研究提出了先进的提示技术以及利用高质量数据进行微调以增强LLMs的推理能力的必要性。然而,这些方法在本质上受到数据可用性和质量的限制。鉴于此,自我纠正和自我学习成为可行的解决方案,采用允许LLMs改进其输出并从自我评估奖励中学习的策略。然而,LLMs在自我完善其响应方面的效力,特别是在复杂推理和规划任务中,仍然存在疑问。在本文中,我们介绍了AlphaLLM用于改进LLMs的自我方法,它将蒙特卡洛树搜索(MCTS)与LLMs相结合,建立自我改进循环,从而增强LLMs的能力,而无需额外的注释。受AlphaGo成功的启发,AlphaLLM解决了将MCTS与LLM相结合进行自我改进的独特挑战,包括数据稀缺性、语言任务搜索空间的广阔性以及语言任务中反馈的主观性质。AlphaLLM由提示综合组件、专为语言任务量身定制的高效MCTS方法以及三个评论模型组成,用于提供精确的反馈。我们在数学推理任务中的实验结果表明,AlphaLLM显著提升了LLMs的性能,而无需额外的注释,展示了LLMs自我改进的潜力。
文本动画作为一种表达媒介,通过赋予文字运动,将静态沟通转化为动态体验,以唤起情感、强调含义并构建引人入胜的叙事。创作具有语义意识的动画面临重大挑战,需要在图形设计和动画方面具备专业知识。我们提出了一种自动文本动画方案,称为“动态排版”,结合了两个具有挑战性的任务。它通过改变字母形状传达语义含义,并根据用户提示赋予它们充满活力的运动。我们的技术利用矢量图形表示和端到端基于优化的框架。该框架采用神经位移场将字母转换为基本形状,并应用逐帧运动,鼓励与预期文本概念的一致性。采用形状保持技术和感知损失正则化以在整个动画过程中保持可读性和结构完整性。我们展示了我们的方法在各种文本到视频模型中的泛化能力,并突出了我们端到端方法的优越性,相对于可能包含独立任务的基准方法。通过定量和定性评估,我们展示了我们的框架在生成连贯的文本动画方面的有效性,它忠实地诠释用户提示并保持可读性。我们的代码可在以下网址找到:https://animate-your-word.github.io/demo/。
我们提出了MeshLRM,这是一种基于LRM的新方法,可以在不到一秒的时间内仅从四幅输入图像中重建出高质量的网格。与先前专注于基于NeRF的重建的大型重建模型(LRMs)不同,MeshLRM在LRM框架内结合了可微的网格提取和渲染。这使得通过微调预训练的NeRF LRM与网格渲染实现端到端的网格重建成为可能。此外,我们通过简化先前LRMs中的若干复杂设计来改进LRM架构。MeshLRM的NeRF初始化经过低分辨率和高分辨率图像的顺序训练;这种新的LRM训练策略实现了显著更快的收敛速度,从而以更少的计算量实现更好的质量。我们的方法实现了从稀疏视图输入中的最先进的网格重建,同时还支持许多下游应用,包括文本到3D和单图像到3D生成。项目页面:https://sarahweiii.github.io/meshlrm/
稳定扩散(SD)在文本到图像生成中的高强度计算负担对其实际应用构成了重大障碍。为了应对这一挑战,最近的研究集中在减少采样步骤的方法,如潜在一致性模型(LCM),以及采用架构优化,包括修剪和知识蒸馏。与现有方法不同,我们独特地从一个紧凑的SD变体BK-SDM入手。我们观察到,将LCM直接应用于使用常见爬取数据集的BK-SDM会产生不理想的结果。这促使我们制定了两种策略:(1)利用领先的生成模型中的高质量图像-文本对,以及(2)为LCM量身定制的先进蒸馏过程。通过我们对量化、剖析和在资源有限的边缘设备上部署的彻底探索,我们仅需两个步骤即可实现在不到一秒的延迟下快速生成逼真的、与文本对齐的图像。
随着大型语言模型(LLMs)在最近广泛应用于长内容生成中,对高效长序列推理支持的需求不断增加。然而,为了避免重新计算而存储的键-值(KV)缓存,由于随着序列长度的增加呈线性增长,已成为一个关键瓶颈。由于LLMs的自回归特性,每生成一个标记都需要加载整个KV缓存,导致计算核心利用率低,延迟高。虽然已经提出了各种KV缓存压缩方法来缓解这一问题,但它们在生成质量上存在下降的问题。我们引入了TriForce,这是一个可扩展到长序列生成的分层推测解码系统。该方法利用原始模型权重和通过检索作为草稿模型的动态稀疏KV缓存,该模型作为层次结构中的中间层,并通过较小的模型进一步推测以减少其起草延迟。TriForce不仅为Llama2-7B-128K实现了令人印象深刻的加速,最高可在A100 GPU上实现2.31倍,而且展示了处理更长上下文的可扩展性。在两个RTX 4090 GPU的卸载设置中,TriForce实现了0.108秒/标记,仅为A100上自回归基线的一半,后者在我们优化的卸载系统上达到了7.78倍。此外,TriForce在单个RTX 4090 GPU上的性能比DeepSpeed-Zero-Inference高出4.86倍。TriForce的稳健性体现在其在各种温度下始终出色的性能。代码可在https://github.com/Infini-AI-Lab/TriForce找到。
基于人类注释的偏好数据对齐语言模型(LMs)是获得实用且高性能的基于LM的系统的关键步骤。然而,多语言人类偏好数据很难大规模获取,这使得将这一框架扩展到不同语言变得具有挑战性。在这项工作中,我们评估了一种简单的零翻译跨语言对齐方法,其中奖励模型基于一个源语言的偏好数据进行训练,然后直接应用于其他目标语言。在总结和开放式对话生成方面,我们展示了这种方法在全面评估设置下的持续成功性,包括人类评估:跨语言对齐模型在多达70%的评估实例上优于未对齐模型。此外,我们发现,有时不同语言的奖励模型比相同语言的奖励模型能够产生更好的对齐模型。我们还确定了在没有语言特定数据甚至进行监督微调时的最佳实践,这也是对齐中的另一个组成部分。
我们引入了一种用于个性化文本到图像扩散模型的新架构,称为注意力混合(MoA)。受到大型语言模型(LLMs)中使用的专家混合机制的启发,MoA在两个注意力路径之间分配生成工作负载:一个个性化分支和一个非个性化先验分支。MoA旨在通过固定先验分支中的注意力层,保留原始模型的先验,同时通过学习将主题嵌入先验分支生成的布局和上下文的个性化分支,最小干预生成过程。一种新颖的路由机制管理每个层中像素在这些分支之间的分布,以优化个性化和通用内容创建的融合。经过训练后,MoA促进了创建高质量、个性化图像,展示了多个主题的构图和互动,与原始模型生成的多样化一样。至关重要的是,MoA增强了模型现有能力与新增个性化干预之间的区别,从而提供了一种更具分离主题-上下文控制的方式,这是以前无法实现的。项目页面:https://snap-research.github.io/mixture-of-attention
本文介绍了由MLCommons AI安全工作组创建的AI安全基准v0.5。AI安全基准旨在评估使用聊天调整语言模型的AI系统的安全风险。我们引入了一种原则性方法来规定和构建该基准,v0.5版本仅涵盖一个用例(成年人与通用助手用英语交谈),以及有限的人物角色(即典型用户、恶意用户和易受攻击用户)。我们创建了一个包含13种危险类别的新分类法,其中v0.5基准中有7种类别进行了测试。我们计划在2024年底发布AI安全基准的1.0版本。v1.0基准将为AI系统的安全提供有意义的见解。然而,v0.5基准不应用于评估AI系统的安全性。我们已经全面记录了v0.5的局限性、缺陷和挑战。AI安全基准v0.5的发布包括:(1)规定和构建基准的原则性方法,包括用例、被测系统类型(SUTs)、语言和背景、人物角色、测试和测试项;(2)包含定义和子类别的13种危险类别的分类法;(3)七种危险类别的测试,每种包括一组独特的测试项,即提示。总共有43,090个测试项,我们使用模板创建;(4)用于对AI系统进行基准评估的评分系统;(5)一个名为ModelBench的开放平台和可下载工具,可用于评估AI系统在基准上的安全性;(6)一个示例评估报告,对十几种公开可用的聊天调整语言模型的性能进行基准测试;(7)基准的测试规范。