每日精选AI研究论文及翻译
语言模型在进行单个推理时实际上只需要使用其神经元的指数分数。作为证明,我们提出了FastBERT,这是一种BERT变体,在推理过程中仅使用其神经元的0.3\%,同时表现与类似的BERT模型相当。FastBERT在每个层推理过程中仅选择了4095个神经元中的12个。这是通过将前馈网络替换为快速前馈网络(FFFs)来实现的。虽然目前还没有真正高效的实现来释放条件神经执行的全部加速潜力,但我们提供了高级CPU代码,实现了比优化基准前馈实现快78倍的加速,并提供了一个PyTorch实现,其推理速度比等效批处理前馈推理快40倍。我们公开了我们的训练代码、基准测试设置和模型权重。
Orca 1从丰富的信号中学习,如解释迹线,使其能够在诸如BigBench Hard和AGIEval等基准测试中胜过传统的指导调整模型。在Orca 2中,我们继续探索如何改进训练信号以增强较小LM的推理能力。对于训练小LM的研究通常依赖于模仿学习,以复制更有能力模型的输出。我们认为过分强调模仿可能会限制较小模型的潜力。我们试图教导小LM为不同任务采用不同的解决策略,这些策略可能与较大模型使用的策略不同。例如,虽然较大模型可能会直接回答复杂任务,但较小模型可能没有相同的能力。在Orca 2中,我们教导模型各种推理技术(逐步、回忆再生成、回忆-推理-生成、直接回答等)。更重要的是,我们旨在帮助模型学会为每个任务确定最有效的解决策略。我们使用包含大约100个任务和超过36,000个独特提示的全面的15个不同基准测试来评估Orca 2。Orca 2显著超越了相似规模的模型,并在复杂任务上取得了类似或更好的性能水平,这些任务在零-shot设置中测试高级推理能力。我们开源Orca 2以鼓励进一步研究较小LM的开发、评估和对齐。
在人工智能领域,创建高动态视频,如运动丰富的动作和复杂的视觉效果,面临着重大挑战。不幸的是,目前的视频生成方法,主要集中在文本到视频生成,往往会产生运动最小化但保持高保真度的视频片段。我们认为仅依赖文本指令对视频生成来说是不足够且次优的。在本文中,我们介绍了PixelDance,这是一种基于扩散模型的新方法,结合了图像指令和文本指令用于视频生成的首尾帧。全面的实验结果表明,使用公共数据训练的PixelDance在合成具有复杂场景和精细动作的视频方面表现出显著更好的能力,为视频生成设定了新的标准。
基于Transformer的大型语言模型(LLMs)中的软注意力容易将上下文中的无关信息纳入其潜在表示中,从而对下一个标记的生成产生不利影响。为了帮助纠正这些问题,我们引入了System 2 Attention(S2A),它利用LLMs在自然语言推理和遵循指令方面的能力,决定要关注什么。S2A重新生成输入上下文,只包括相关部分,然后关注重新生成的上下文以引出最终响应。在实验中,S2A在包含观点或无关信息的三个任务中表现优于基于标准注意力的LLMs,包括问答、数学文字问题和长篇生成,其中S2A增加了事实性和客观性,减少了阿谀奉承。
LoRA 在为特定任务调整 LLMs 时实现了显著的资源效率和可比性能。自 ChatGPT 在各种任务上展示出卓越性能以来,人们越来越希望将一个模型适应所有任务。然而,LoRA 的显式低秩限制了在复杂多任务场景中的适应性能。LoRA 受少数顶部奇异向量的主导,而微调则分解为一组较不重要的酉变换。本文提出了 MultiLoRA,通过减少 LoRA 中观察到的顶部奇异向量的主导性,实现更好的多任务适应性。MultiLoRA 水平扩展 LoRA 模块,并改变适应矩阵的参数初始化,以减少参数依赖性,从而产生更平衡的酉子空间。我们首次构建了专门的训练数据,混合了指令跟随、自然语言理解、世界知识等数据集,以覆盖语义和句法上不同的样本。仅增加 2.5% 的额外参数,MultiLoRA 在多个基准和模型规模上均优于单个 LoRA 和微调。对 MultiLoRA 的权重更新矩阵进行进一步研究显示减少了对顶部奇异向量的依赖,并增加了更民主的酉变换贡献。
我们提出了GPQA,这是一个由生物学、物理学和化学领域的专家撰写的448个多项选择题的挑战性数据集。我们确保这些问题是高质量且极具挑战性的:在对应领域拥有或正在攻读博士学位的专家们的准确率达到65%(如果不计入专家事后识别的明显错误,则为74%),而高技能的非专家验证者仅达到34%的准确率,尽管他们平均花费超过30分钟并可以无限制地访问网络(即这些问题是“防谷歌”的)。这些问题对于最先进的AI系统也很困难,我们基于最强大的GPT-4基线的准确率仅为39%。如果我们要使用未来的AI系统来帮助我们回答非常困难的问题,例如在开发新的科学知识时,我们需要开发可扩展的监督方法,使人类能够监督他们的输出,即使监督者本身是熟练和有知识的也可能很困难。对于高技能的非专家和前沿AI系统来说,GPQA的困难程度应该能够进行现实可扩展的监督实验,我们希望这可以帮助设计出让人类专家能够可靠地从超越人类能力的AI系统中获取真实信息的方法。
我们介绍了 Adapters,这是一个开源库,统一了大型语言模型中参数高效和模块化的迁移学习。通过将10种不同的适配器方法集成到统一接口中,Adapters 提供了易用性和灵活的配置。我们的库允许研究人员和实践者通过组合块利用适配器模块化,从而设计复杂的适配器设置。我们通过在各种自然语言处理任务上评估其性能,展示了该库的有效性。Adapters 提供了一个强大的工具,用于解决传统微调范式的挑战,并推动更高效和模块化的迁移学习。该库可通过 https://adapterhub.ml/adapters 获取。
我们介绍了Style Tailoring,这是一种在具有高视觉质量、快速对齐和场景多样性的不同领域中微调潜在扩散模型(LDMs)的方法。我们选择贴纸图像生成作为目标领域,因为这些图像与通常由大规模LDMs生成的逼真样本有显著差异。我们首先使用像Emu这样的高效文本到图像模型,并展示依赖逼真模型进行贴纸生成会导致提示对齐和场景多样性不佳。为了克服这些缺点,我们首先使用弱监督收集的数百万张类似贴纸的图像对Emu进行微调,以引出多样性。接下来,我们从模型生成中筛选出人机对齐(HITL)和风格数据集,并分别进行微调以改善提示对齐和风格对齐。在这些数据集上的顺序微调存在更好的风格对齐和提示对齐收益之间的权衡。为了解决这种权衡,我们提出了一种称为Style Tailoring的新型微调方法,它共同适应内容和风格分布,并实现最佳权衡。评估结果显示,与对Emu基础模型进行贴纸生成的提示工程相比,我们的方法将视觉质量提高了14%,提示对齐提高了16.2%,场景多样性提高了15.3%。
最近在文本到3D生成领域的进展标志着生成模型中的重要里程碑,为在各种现实场景中创造富有想象力的3D资产开启了新的可能性。虽然最近在文本到3D生成方面取得了一些进展,但往往在渲染详细和高质量的3D模型方面表现不佳。这个问题特别普遍,因为许多方法基于得分蒸馏采样(SDS)。本文指出了SDS存在的一个显著缺陷,即为3D模型带来不一致和低质量的更新方向,导致过度平滑效果。为了解决这个问题,我们提出了一种名为区间得分匹配(ISM)的新方法。ISM采用确定性扩散轨迹,并利用基于区间的得分匹配来抵消过度平滑。此外,我们将3D高斯光斑投影技术纳入我们的文本到3D生成流程中。大量实验证明,我们的模型在质量和训练效率方面大大优于现有技术水平。
增加语言模型参数的规模已被证明是提高性能的有效方法。对于密集模型,增加模型大小会成比例地增加模型的计算量。在这项工作中,我们试图通过具有大型知识丰富词汇的路由函数和专家的混合专家(MoE)风格模型,积极地将学习能力和FLOPs进行解耦。我们提出的方法被称为词专家混合(MoWE),可以看作是一种记忆增强模型,其中一大组特定于单词的专家扮演稀疏内存的角色。我们证明MoWE在各种自然语言处理任务中的表现明显优于具有相似FLOPs数量的T5系列模型。此外,MoWE在知识密集型任务上优于常规MoE模型,并且与通常需要调用自定义机制来搜索稀疏内存的更复杂的记忆增强方法具有类似的性能。
故事可视化旨在生成一系列与文本描述的故事相匹配的图像,需要生成的图像具有高质量、与文本描述一致,并保持角色身份的连贯性。鉴于故事可视化的复杂性,现有方法通过仅考虑少数特定角色和情景,或要求用户提供每个图像的控制条件(如草图),从而大大简化了问题。然而,这些简化使得这些方法在实际应用中无法胜任。因此,我们提出了一种自动化故事可视化系统,能够有效生成多样化、高质量和连贯的故事图像集,减少人类干预。具体而言,我们利用大型语言模型的理解和规划能力进行布局规划,然后利用大规模文本到图像模型基于布局生成复杂的故事图像。我们经验性地发现,稀疏的控制条件,如边界框,适合布局规划,而密集的控制条件,例如草图和关键点,适合生成高质量的图像内容。为了兼顾两者的优势,我们设计了一个密集条件生成模块,将简单的边界框布局转换为草图或关键点控制条件用于最终图像生成,这不仅提高了图像质量,还使用户交互简单直观。此外,我们提出了一种简单而有效的方法来生成多视角一致的角色图像,消除了依赖人工收集或绘制角色图像的需求。
从古代水车到机器人流程自动化(RPA),自动化技术在历史上不断发展,旨在解放人类免于繁重任务。然而,RPA 在需要类人智能的任务中面临困难,特别是在复杂的工作流设计和工作流执行中的动态决策方面。随着大型语言模型(LLMs)具备了类人智能,本文介绍了一种名为主体过程自动化(APA)的开创性自动化范式,利用基于LLM的代理实现先进自动化,通过将人类劳动转移给与构建和执行相关的代理。然后,我们实例化了ProAgent,一种基于LLM的代理,旨在根据人类指令制定工作流程,并通过协调专门代理进行复杂决策。进行了实证实验,详细说明了其工作流程的构建和执行过程,展示了APA的可行性,揭示了由代理驱动的自动化新范式的可能性。我们的代码公开在https://github.com/OpenBMB/ProAgent。
大型语言模型(LLMs)已经展示了在解决需要结合任务规划和使用外部工具的任务方面的熟练能力,这些任务需要结合任务规划和利用外部工具(如API)的技能。然而,现实世界中的复杂系统存在三个普遍挑战,涉及任务规划和工具使用:(1)真实系统通常具有大量的API,因此不可能将所有API的描述输入LLMs的提示中,因为令牌长度有限;(2)真实系统设计用于处理复杂任务,而基本LLMs几乎无法为这些任务规划正确的子任务顺序和API调用顺序;(3)真实系统中API之间的语义和功能类似,这给LLMs甚至人类在区分它们之间带来挑战。为应对这些挑战,本文介绍了一个全面的框架,旨在增强基于LLMs的代理在实际系统中的任务规划和工具使用(TPTU)能力。我们的框架包括三个关键组件,旨在解决这些挑战:(1)API检索器从众多可用的API中选择与用户任务最相关的API;(2)LLM微调器微调基本LLM,使微调后的LLM能够更适合任务规划和API调用;(3)演示选择器自适应地检索与难以区分的API相关的不同演示,这进一步用于上下文学习,以提高最终性能。我们使用一个真实的商业系统和一个开源的学术数据集验证了我们的方法,结果清楚展示了每个单独组件以及集成框架的有效性。
我们介绍了一个流程,通过整合人类行为观察来增强通用视觉语言模型GPT-4V(ision),以促进机器人操作。该系统分析人类执行任务的视频,并创建包含可供性洞察的可执行机器人程序。计算从使用GPT-4V分析视频开始,将环境和动作细节转换为文本,然后使用GPT-4增强的任务规划器。在后续分析中,视觉系统使用任务计划重新分析视频。对象名称通过开放词汇对象检测器进行基础化,而关注手-物体关系有助于检测抓取和释放时刻。这种时空基础化使视觉系统进一步收集可供性数据(例如,抓取类型、路径点和身体姿势)。在各种场景中进行的实验表明,这种方法能够以零样本方式从人类演示中实现真实机器人的操作。GPT-4V/GPT-4的提示可在此项目页面找到:https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
当前利用大型语言模型(LLMs)进行研究的领域正在迅速增长。许多作品利用这些模型强大的推理能力来理解各种形式,如文本、语音、图像、视频等。它们还利用LLMs来理解人类意图并生成期望的输出,如图像、视频和音乐。然而,利用LLMs结合理解和生成的研究仍然有限且处于起步阶段。为了填补这一空白,我们引入了一个多模态音乐理解与生成(M^{2}UGen)框架,该框架整合了LLM的能力,用于理解和生成不同形式的音乐。M^{2}UGen框架专为从多样化的灵感来源中释放创造潜力而设计,包括音乐、图像和视频,通过分别使用预训练的MERT、ViT和ViViT模型。为了实现音乐生成,我们探索了AudioLDM 2 和MusicGen的使用。通过LLaMA 2模型的整合,实现了多模态理解和音乐生成的桥梁。此外,我们利用MU-LLaMA模型生成大量数据集,支持文本/图像/视频到音乐的生成,促进了我们M^{2}UGen框架的训练。我们对我们提出的框架进行了彻底评估。实验结果表明,我们的模型达到或超过了当前最先进模型的性能。