每日精选AI研究论文及翻译
文本生成音乐模型现在能够生成各种风格的高质量音乐音频。然而,文本控制主要适用于操纵全局音乐属性,如流派、情绪和速度,对于精确控制时间变化属性,如节拍在时间轴上的位置或音乐动态的变化则不太适用。我们提出了Music ControlNet,这是一种基于扩散的音乐生成模型,可以提供对生成音频的多个精确的、时变的控制。为了赋予文本生成音乐模型时变控制能力,我们提出了一种类似于图像域ControlNet方法的像素级控制方法。具体地,我们从训练音频中提取控制信息,形成配对数据,并对音频频谱图进行扩散条件生成模型的微调,给定旋律、动态和节奏控制。虽然图像域Uni-ControlNet方法已经允许使用任意子集的控制进行生成,但我们设计了一种新策略,允许创作者输入部分时间上仅部分指定的控制。我们评估了从音频中提取的控制和我们期望创作者提供的控制,在这两种情况下展示了我们可以生成与控制输入相对应的逼真音乐。虽然目前存在很少可比较的音乐生成模型,我们对MusicGen进行了基准测试,这是一个接受文本和旋律输入的最新模型,并展示了我们的模型生成的音乐与输入旋律更为贴近,尽管参数数量少了35倍,训练数据减少了11倍,同时实现了两种额外的时变控制形式。可在https://MusicControlNet.github.io/web/找到声音示例。
在这份技术报告中,我们旨在通过仅凭文本描述,在线生成LLM(大型语言模型)角色的拟人化人物形象,包括视觉外观、个性和语调。为实现这一目标,我们首先利用LLM的上下文学习能力进行个性生成,通过精心设计一组系统提示。然后,我们提出了两个新颖概念:声音混合(MoV)和扩散器混合(MoD),用于多样化声音和外观生成。对于MoV,我们利用文本转语音(TTS)算法,具有各种预定义语调,并根据用户提供的文本描述自动选择最匹配的语调。对于MoD,我们结合了最近流行的文本转图像生成技术和说话头算法,简化了生成说话对象的过程。我们将整个框架命名为ChatAnything。借助这一框架,用户可以仅通过少量文本输入为任何事物赋予拟人化人物形象。然而,我们观察到当前生成模型生成的拟人化对象通常无法被预训练的面部关键点检测器检测到,导致面部运动生成失败,即使这些面部具有类似人类的外观,因为这些图像在训练过程中几乎没有出现(例如,OOD样本)。为解决这一问题,我们在图像生成阶段引入像素级引导,将人脸关键点融入图像生成中。为了评估这些指标,我们构建了一个评估数据集。基于此,我们验证了面部关键点的检测率从57.0%显著提高到92.5%,从而实现基于生成语音内容的自动面部动画。代码和更多结果可在https://chatanything.github.io/找到。
从故事中生成自然的人类动作具有改变动画、游戏和电影行业格局的潜力。当角色需要根据长篇描述移动到不同位置并执行特定动作时,一个新的具有挑战性的任务——从故事到动作(Story-to-Motion)就产生了。这一任务要求融合低层控制(轨迹)和高层控制(动作语义)。先前在角色控制和文本到动作方面的研究已经涉及相关方面,但一个全面的解决方案仍然难以实现:角色控制方法无法处理文本描述,而文本到动作方法缺乏位置约束,通常会产生不稳定的动作。鉴于这些限制,我们提出了一个新颖的系统,可以生成可控、无限长的动作和轨迹,与输入文本对齐。我们利用当代大型语言模型作为文本驱动的动作调度器,从长篇文本中提取一系列(文本、位置、持续时间)对。我们开发了一个文本驱动的动作检索方案,结合了动作匹配、动作语义和轨迹约束。我们设计了一个渐进式掩码变换器,解决了过渡动作中常见的问题,如不自然的姿势和脚滑动。除了作为首个从故事到动作的全面解决方案的开创性角色外,我们的系统在轨迹跟随、时间动作组合和动作混合等三个不同子任务上进行了评估,在各方面均优于先前最先进的动作合成方法。主页:https://story2motion.github.io/。
多模态基础模型,如GPT-4V所代表的,为低层次视觉感知和理解任务带来了新的范式,可以响应模型中广泛的自然人类指令。虽然现有的基础模型在低层次视觉任务上展现出令人兴奋的潜力,但其相关能力仍处于初步阶段,需要改进。为了增强这些模型,我们进行了大规模主观实验,收集了大量关于低层次视觉的真实人类反馈。每个反馈都遵循一条路径,从对图像的低层视觉外观(如清晰度、颜色、亮度)的详细描述开始,以平均长度为45个词的总体结论结束。构建的Q-Pathway数据集包括18,973张具有多样低层外观的图像上的58K个详细人类反馈。此外,为了使基础模型能够稳健地回应各种类型的问题,我们设计了一个由GPT参与的转换,将这些反馈处理成多格式的200K个指令-响应对。实验结果表明,Q-Instruct能够持续提升几个基础模型的低层感知和理解能力。我们预计我们的数据集可以为未来一种普适智能能够像人类一样感知、理解低层视觉外观并评估视觉质量的道路铺平。我们的数据集、模型库和演示发布在:https://q-future.github.io/Q-Instruct。
现有的视觉指导调整方法通常使用文本描述来提示大型语言模型生成遵循指令的数据。尽管取得了令人鼓舞的性能,但这些描述是从图像注释中衍生出来的,而这些注释往往是粗粒度的。此外,这些指令甚至可能在没有观察整个视觉上下文的情况下与视觉内容相矛盾。为了解决这一挑战,我们引入了一个细粒度的视觉指导数据集,LVIS-Instruct4V,其中包含由强大的GPT-4V提示LVIS图像生成的22万个视觉对齐和上下文感知指令。通过实验验证和案例研究,我们证明高质量的视觉指导数据可以显著提高LLaVA-1.5的性能,这是一种最先进的大型多模态模型,在各种基准测试中都有明显的提升。值得注意的是,仅仅通过用我们的LVIS-Instruct4V替换LLaVA-Instruct,我们在大多数具有挑战性的LMM基准测试中取得了比LLaVA更好的结果,例如LLaVA^w(76.7比70.7)和MM-Vet(40.2比35.4)。我们在https://github.com/X2FD/LVIS-INSTRUCT4V 上发布了我们的数据和模型。
在家庭和仓库等部署场景中,移动机器人被期望能够自主导航长时间,无缝执行任务,这些任务以人类操作者直观理解的方式表达。我们提出了GO To Any Thing(GOAT),这是一个通用导航系统,具有三个关键特性:a)多模态:它可以处理通过类别标签、目标图像和语言描述指定的目标,b)终身学习:它从过去在相同环境中的经验中受益,c)平台无关:它可以快速部署在具有不同实体的机器人上。GOAT通过模块化系统设计和不断增强的实例感知语义记忆实现,该记忆跟踪不同视角中对象的外观,除了类别级语义。这使GOAT能够区分同一类别的不同实例,以便导航到由图像和语言描述指定的目标。在实验比较中,跨越了9个不同家庭的90多个小时,包括200多个不同对象实例的675个目标,我们发现GOAT实现了83%的总体成功率,超过了以前的方法和消融实验32%(绝对改善)。GOAT在环境中的经验增加后表现得更好,从第一个目标的60%成功率到探索后的90%成功率。此外,我们展示了GOAT可以轻松应用于拾取放置和社交导航等下游任务。
我们提出了SPHINX,这是一个多功能的多模态大型语言模型(MLLM),具有模型权重、调整任务和视觉嵌入的联合混合。首先,为了实现更强的视觉-语言对齐,我们在预训练期间解冻了大型语言模型(LLM),并引入了在真实数据和合成数据上训练的LLM之间的权重混合策略。通过直接整合两个领域的权重,混合LLM可以有效地融合多样的语义,具有良好的鲁棒性。然后,为了实现多功能能力,我们混合了各种任务进行联合视觉指导调整,并设计了任务特定的指导以避免任务间的冲突。除了基本的视觉问答,我们还包括了更具挑战性的任务,如区域级理解、标题定位、文档布局检测和人体姿势估计,有助于在不同场景下相互增强。此外,我们提议从各种网络架构、预训练范式和信息粒度中提取全面的视觉嵌入,为语言模型提供更强大的图像表示。基于我们提出的联合混合,SPHINX在各种应用中展现出卓越的多模态理解能力。除此之外,我们进一步提出了一种旨在更好地捕捉高分辨率图像细粒度外观的高效策略。通过混合不同尺度和高分辨率子图像,SPHINX在现有评估基准上实现了出色的视觉解析和推理性能。我们希望我们的工作能为未来MLLM研究中的联合混合探索投下一线光芒。代码已发布在https://github.com/Alpha-VLLM/LLaMA2-Accessory。
我们提出了MM-Navigator,这是一个基于GPT-4V的智能代理,用于智能手机图形用户界面(GUI)导航任务。MM-Navigator能够像人类用户一样与智能手机屏幕交互,并确定后续操作以完成给定的指令。我们的研究结果表明,大型多模型(LMMs),特别是GPT-4V,通过其先进的屏幕解释、行动推理和精确的行动定位能力,在零-shot GUI导航方面表现出色。我们首先在我们收集的iOS屏幕数据集上对MM-Navigator进行基准测试。根据人类评估,该系统在生成合理的操作描述方面的准确率达到91%,在iOS上执行单步指令的正确操作的准确率为75%。此外,我们还在Android屏幕导航数据集的子集上评估了该模型,在零-shot方式下超越了先前的GUI导航器。我们的基准测试和详细分析旨在为未来GUI导航任务的研究奠定坚实基础。项目页面位于https://github.com/zzxslp/MM-Navigator。
近年来,大型语言模型(LLMs)的研究取得了快速进展,在几个自然语言处理(NLP)任务中取得了显著进展。因此,LLM评估研究激增,以了解模型的能力和局限性。然而,大部分研究仅限于英语,导致非英语语言的LLM构建和评估相对未被探索。随着几种新的LLMs的推出,有必要对非英语语言进行评估。本研究旨在通过引入六个新数据集,扩展我们的MEGA基准套件,形成MEGAVERSE基准。该基准包括22个数据集,涵盖81种语言,包括资源匮乏的非洲语言。我们在MEGAVERSE数据集上评估了几种最先进的LLMs,如GPT-3.5-Turbo、GPT4、PaLM2和Llama2。此外,我们在基准中包含了两个多模态数据集,并评估了LLaVa-v1.5模型的性能。我们的实验表明,GPT4和PaLM2在各种任务上优于Llama模型,特别是在资源匮乏的语言上,其中GPT4在更多数据集上优于PaLM2。然而,必须解决数据污染等问题,以获得对LLM在非英语语言上性能的准确评估。
近年来,自然语言处理方面的突破性进展导致了强大的大型语言模型(LLMs)的出现,这些模型在包括自然语言的理解、生成和翻译以及超越语言处理的任务在内的广泛领域展现出了显著的能力。在本报告中,我们深入探讨了LLMs在科学发现背景下的表现,重点关注了目前最先进的语言模型GPT-4。我们的调查涵盖了涵盖药物发现、生物学、计算化学(密度泛函理论(DFT)和分子动力学(MD))、材料设计以及偏微分方程(PDE)等多样科学领域。评估GPT-4在科学任务上的表现对于揭示其在各种研究领域的潜力、验证其特定领域的专业知识、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括基于专家案例评估,这些评估提供了关于模型对复杂科学概念和关系的理解的定性见解,以及偶尔进行的基准测试,从而定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明,GPT-4在各种科学应用方面展现出了有希望的潜力,显示出其处理复杂问题解决和知识整合任务的能力。总体而言,我们评估了GPT-4的知识库、科学理解、科学数值计算能力以及各种科学预测能力。
大型语言模型(LLMs)是在覆盖规模庞大的语料库上训练的,这些语料库不可避免地包含了来自可靠性不同的来源的矛盾事实信息。本文提出了衡量LLM属性的概念,即受信任来源对齐(TSA):模型在面对不确定性或争议时与可信出版商制作的内容保持一致的倾向。我们提出了FactCheckQA,这是一个基于事实核查文章语料库的TSA评估数据集。我们描述了一个用于评估TSA的简单协议,并提供了对设计考虑因素的详细分析,包括响应提取、主张情境化和提示公式中的偏见。将该协议应用于PaLM-2后,我们发现随着模型规模的扩大,模型在FactCheckQA上的表现从接近随机到最高可达80%的平衡准确率,即与受信任来源对齐。
条件图形布局生成自动将用户约束映射到高质量布局,如今已经引起了广泛关注。尽管最近的研究取得了令人期待的性能,但缺乏通用性和数据效率阻碍了它们的实际应用。在这项工作中,我们提出了LayoutPrompter,利用大型语言模型(LLMs)通过上下文学习来解决上述问题。LayoutPrompter由三个关键组件组成,即输入输出序列化、动态示例选择和布局排名。具体而言,输入输出序列化组件精心设计了每个布局生成任务的输入和输出格式。动态示例选择负责为给定输入选择最有帮助的提示示例。布局排名器用于从LLMs的多个输出中选择最高质量的布局。我们使用四个公共数据集对所有现有的布局生成任务进行实验。尽管我们的方法简单,实验结果表明LayoutPrompter在这些任务上可以与甚至胜过最先进的方法,而无需任何模型训练或微调。这证明了这种通用且无需训练的方法的有效性。此外,消融研究表明,在低数据情况下,LayoutPrompter明显优于基于训练的基线,进一步表明了LayoutPrompter的数据效率。我们的项目可在https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter找到。
大型语言模型(LLMs)如T0、FLAN和OPT-IML,在统一的指令遵循范式下擅长多任务处理,同时展现出对未见任务的显著泛化能力。尽管它们表现出色,但这些LLMs的规模从数十亿到数千亿参数不等,需要大量计算资源,使得它们的训练和推断变得昂贵且低效。此外,将这些模型调整到下游应用中,特别是复杂任务,通常由于微调所需的广泛硬件要求而难以实现,即使使用提示微调等参数高效方法也是如此。此外,像OPT-IML-175B和FLAN-PaLM-540B这样最强大的多任务LLMs并不是公开可访问的,严重限制了它们的定制潜力。为了解决这些挑战,我们引入了一个预训练的小型评分器Cappy,旨在增强多任务LLMs的性能和效率。Cappy仅具有3.6亿参数,可以独立用于分类任务,也可以作为LLMs的辅助组件,提升它们的性能。此外,Cappy能够有效地整合下游监督,无需进行LLM微调或访问它们的参数。我们的实验表明,当独立处理来自PromptSource的11个语言理解任务时,Cappy的表现优于规模大几个数量级的LLMs。此外,在来自BIG-Bench的45个复杂任务中,Cappy极大地提升了先进多任务LLM FLAN-T5的性能。此外,Cappy灵活地与其他LLM适应方法合作,包括微调和上下文学习,提供额外的性能增强。
在这项工作中,我们通过添加端到端通用语音处理和推理能力来扩展经过指导调整的 Llama-2 模型,同时保持广泛的 LLM 能力范围,而无需使用任何精心策划的配对数据。所提出的模型可以利用音频提示替代文本并维持对话。这样的模型还具有扩展的跨模态能力,例如能够执行语音问答、语音翻译和音频摘要等许多封闭和开放领域任务。这与先前在语音领域的方法不同,先前的方法是将 LLMs 扩展到处理有限数量的预先指定任务的音频。实验证明,我们的端到端方法在对某个提示的响应建模方面与级联系统(语音识别器 + LLM)不相上下,甚至表现更好。此外,与级联系统不同,我们的方法显示出能够交换文本和音频模态,并利用对话中的先前上下文以提供更好的结果。
我们介绍并研究了对抗算术问题,这为语言模型对齐提供了一个简单但具有挑战性的测试平台。该问题由以自然语言提出的算术问题组成,在问题完成之前插入任意对抗字符串。即使在一位数加法问题的简单设置中,很容易找到使所有经过测试的模型(包括PaLM2、GPT4、Claude2)表现不佳甚至引导模型给出特定错误答案的对抗提示。我们另外提供了一种简单算法,通过查询这些模型找到成功攻击,我们将其命名为“提示逆转拒绝抽样”(PIRS)。最后,我们展示了模型可以通过强化学习和主体构成循环部分地抵御这些攻击。然而,我们无法使语言模型完全抵御对抗算术攻击。