每日精选AI研究论文及翻译
数据集是现代人工智能许多突破的基础。自然语言处理领域的许多最新成就归功于在多样化任务集上微调预训练模型,使大型语言模型(LLM)能够响应指令。指令微调(IFT)需要专门构建和注释的数据集。然而,现有数据集几乎都是以英语为主。在这项工作中,我们的主要目标是通过构建一个跨越65种语言的人工筛选的指令遵循数据集来弥合语言差距。我们与世界各地讲流利语言的人合作,收集指令和完成的自然实例。此外,我们通过模板化和翻译现有数据集,创建迄今为止最广泛的多语言集合,涵盖114种语言,共包括5.13亿个实例。总体上,我们提供了四个关键资源:我们开发并开源Aya注释平台、Aya数据集、Aya收集和Aya评估套件。Aya倡议还作为一个有价值的参与性研究案例研究,涉及来自119个国家的合作者。我们认为这是未来研究合作的有价值框架,旨在弥合资源方面的差距。
大型语言模型的数学能力可以代表它们的抽象推理能力。本文介绍并开源了我们的数学推理LLMs InternLM-Math,它是从InternLM2继续预训练的。我们将思维链推理、奖励建模、形式推理、数据增强和代码解释器统一到一个统一的seq2seq格式中,并监督我们的模型成为多功能数学推理者、验证者、证明者和增强者。这些能力可用于开发下一代数学LLMs或自我迭代。InternLM-Math在上下文学习、监督微调和代码辅助推理等各种非正式和正式基准测试中获得了开源的最先进性能,包括GSM8K、MATH、匈牙利数学考试、MathBench-ZH和MiniF2F。我们的预训练模型在MiniF2F测试集上实现了30.3的成绩,无需微调。我们进一步探讨了如何使用LEAN解决数学问题,并研究了在多任务学习设置下的性能,显示了使用LEAN作为数学解决和证明的统一平台的可能性。我们的模型、代码和数据已发布在https://github.com/InternLM/InternLM-Math。
从文本提示中创建数字化头像长期以来一直是一项令人向往但具有挑战性的任务。尽管最近的研究工作中通过2D扩散先验取得了令人期待的成果,但当前方法在有效实现高质量和动画头像方面面临挑战。在本文中,我们提出了HeadStudio,一个新颖的框架,利用3D高斯飞溅来从文本提示生成逼真且具有动画效果的头像。我们的方法通过中间的FLAME表示驱动3D高斯,从而在语义上创建灵活且可实现的外观。具体而言,我们将FLAME融入到3D表示和分数蒸馏中:1)基于FLAME的3D高斯飞溅,通过将每个点绑定到FLAME网格来驱动3D高斯点。2)基于FLAME的分数蒸馏采样,利用基于FLAME的细粒度控制信号来指导从文本提示中进行分数蒸馏。大量实验证明了HeadStudio在从文本提示生成可动画头像方面的有效性,展现出视觉上吸引人的外观。这些头像能够以1024的分辨率以高质量实时(大于等于40 fps)呈现新颖视角。它们可以通过真实世界的语音和视频进行流畅控制。我们希望HeadStudio能推进数字化头像的创作,当前的方法能够广泛应用于各个领域。
最近在文本转音乐生成模型方面取得的进展为音乐创作开辟了新的途径。然而,音乐生成通常涉及迭代的改进,如何编辑生成的音乐仍然是一个重要挑战。本文介绍了一种新颖的方法,用于编辑由这些模型生成的音乐,实现修改特定属性(如流派、情绪和乐器),同时保持其他方面不变。我们的方法将文本编辑转换为潜在空间操作,同时添加额外约束以强制一致性。它与现有的预训练文本转音乐扩散模型无缝集成,无需额外训练。实验结果表明,在风格和音色转移评估中,我们的方法在零样本和某些监督基线上表现出优越性能。此外,我们展示了我们的方法在真实音乐编辑场景中的实际适用性。
通过将自然语言理解、生成能力以及大型语言模型的知识广度与图像感知相结合,最近的大型视觉语言模型(LVLMs)展示了在现实世界中前所未有的推理能力。然而,生成的文本往往存在与视觉输入不准确的基础相关的问题,导致诸如产生不存在的场景元素、缺失场景中重要部分以及推断对象之间的属性和关系时出现错误等问题。为了解决这些问题,我们引入了一种新颖的框架,ViGoR(通过细粒度奖励建模实现视觉基础)。该框架利用细粒度奖励建模显著增强了LVLMs在预训练基线上的视觉基础。这种改进通过使用更为经济的人类评估而非完全监督以及自动化方法有效实现。我们通过多个基准测试展示了我们方法的有效性。此外,我们构建了一个专门设计用于验证LVLMs视觉基础能力的全面且具有挑战性的数据集。最后,我们计划发布包含大约16,000张图像和生成文本对的细粒度评估的人类注释,以促进社区中相关研究的发展。
我们引入了具有规范示例的模型编辑,这是一种设置,其中:(1)每个期望行为提供一个学习示例,(2)评估完全在分布之外进行,(3)与初始模型的偏差严格限制。规范示例是良好行为的简单实例,例如,毛里求斯的首都是路易港)或不良行为,例如,研究人员的一个方面是冷酷的)。评估集包含每种行为的更复杂示例(例如,一个段落中要求毛里求斯的首都)。我们创建了三个数据集,并修改了另外三个以进行具有规范示例的模型编辑,涵盖了知识密集型改进、社会偏见缓解和句法边缘情况。在我们对Pythia语言模型的实验中,我们发现LoRA优于完全微调和MEMIT。然后,我们转向背包语言模型架构,因为它旨在实现有针对性的改进。背包定义了一个大型的意义向量库--每个词的不同用法的分解--这些向量被加权并求和以形成模型的输出logits。我们提出了意义微调,它选择并微调了每个规范示例的几个(约10个)意义向量,并发现它优于其他微调方法,例如,改进了4.8%与0.3%。最后,我们通过仅使用从一个35倍较小的背包的意义微调变化进行推理时间集成来改进了GPT-J-6B,在一个设置中胜过编辑GPT-J本身(4.1%对1.0%)。
大型语言模型(LLMs)有潜力影响广泛的创意领域,但将LLMs应用于动画尚未得到充分探讨,并提出了新的挑战,例如用户如何有效地用自然语言描述运动。在本文中,我们提出了Keyframer,这是一个用自然语言为静态图像(SVGs)制作动画的设计工具。Keyframer受专业动画设计师和工程师的访谈启发,通过提示和直接编辑生成的输出的结合,支持动画的探索和完善。该系统还使用户能够请求设计变体,支持比较和构思。通过与13名参与者进行的用户研究,我们提出了用户提示策略的表征,包括用于描述运动的语义提示类型的分类法以及一种“分解”提示风格,用户不断根据生成的输出调整其目标。我们分享了直接编辑和提示如何使得用户能够在当今生成工具中常见的一次性提示界面之外进行迭代。通过这项工作,我们提出了LLMs如何赋予各种受众参与动画创作的可能性。
尽管大型语言模型(LLMs)取得了显著成功,但它们庞大的内存需求在长上下文令牌生成中部署时面临挑战。LLM解码器的巨大内存占用量源于需要在注意力模块中存储所有先前的令牌,这是键-值(KV)缓存所施加的要求。本研究的重点是开发一种高效的KV缓存压缩技术。经验证据表明,在注意力模块的键嵌入中存在显著的聚类倾向。基于这一关键洞察,我们设计了一种新颖的缓存方法,具有亚线性复杂度,采用键令牌上的在线聚类和值上的在线ell_2抽样。结果是一个经证明准确且高效的注意力解码算法,称为SubGen。该算法不仅确保亚线性内存占用和亚线性时间复杂度,还为我们的方法建立了严格的误差界限。在长上下文问答任务的实证评估中表明,SubGen在性能和效率方面明显优于现有和最先进的KV缓存压缩方法。
现有的控制语言模型的方法,如RLHF和Constitutional AI,涉及确定哪些LLM行为是可取的,并将其训练到语言模型中。然而,在许多情况下,希望在推断时能够控制LLMs,以便它们可以在多种具有不同需求的情境中使用。我们通过粉色大象问题进行说明:指示LLM避免讨论某个实体(“粉色大象”),而是讨论一个首选实体(“灰色大象”)。我们应用了Constitutional AI的一种新颖简化,即直接原则反馈,跳过响应排名,直接在批评和修订上使用DPO。我们的结果表明,在我们的合成粉色大象数据集上进行DPF微调后,我们的13B微调的LLaMA 2模型在粉色大象问题评估的精心策划测试集上表现显著优于Llama-2-13B-Chat和一个提示基准,并且与GPT-4一样表现出色。
我们提出Premier-TACO,这是一种多任务特征表示学习方法,旨在提高序贯决策任务中少样本策略学习效率。Premier-TACO利用多任务离线数据集的子集进行预训练通用特征表示,捕捉关键的环境动态,并使用最少的专家演示进行微调。它推进了时间动作对比学习(TACO)目标,该目标在视觉控制任务中以最先进的结果闻名,通过引入一种新颖的负例采样策略。这种策略对于显著提升TACO的计算效率至关重要,使大规模多任务离线预训练成为可能。我们在包括Deepmind Control Suite、MetaWorld和LIBERO在内的多样的连续控制基准测试中进行了广泛的实证评估,展示了Premier-TACO在预训练视觉表示方面的有效性,显著提升了对新任务的少样本模仿学习。我们的代码、预训练数据以及预训练模型检查点将在https://github.com/PremierTACO/premier-taco 上发布。
我们介绍了动态贴纸,这是一个视频扩散模型,它根据文本提示和静态贴纸图像生成动画。我们的模型建立在最先进的Emu文本到图像模型之上,增加了时间层来建模运动。由于领域差异,即视觉和运动风格的差异,一个在生成自然视频方面表现良好的模型,当应用于贴纸时,就无法生成生动的视频。为了弥合这一差距,我们采用了一个两阶段微调流程:首先使用弱领域数据,然后采用我们称之为教师集成的人机协作(HITL)策略。它将多个教师的最佳特质提炼到一个更小的学生模型中。我们展示了这一策略使我们能够 gezi'zhuanmen地针对提高运动质量,同时保持静态图像风格。通过推理优化,我们的模型能够在不到一秒的时间内生成一个包含八帧高质量、有趣且相关运动的视频。
如今,大型语言模型(LLMs)被期望能够生成符合人类偏好的内容。当前的研究侧重于在模型训练时通过诸如人类反馈强化学习(RLHF)等技术实现对齐。然而,目前尚不清楚这些方法是否是向模型教授对齐目标的有效选择。首先,无法整合多个自定义奖励和依赖模型开发者对普遍和静态原则的观点是主要限制因素。其次,模型训练中的残余差距以及这些方法的可靠性也存在疑问(例如,即使经过安全训练,也容易被越狱)。为了解决这些问题,我们提出了DeAL,这是一个允许用户自定义奖励函数并实现LLMs解码时对齐的框架。在其核心,我们将解码视为一个启发式引导的搜索过程,并促进各种对齐目标的使用。我们的实验涉及编程约束,如关键词和长度约束(在LLM时代前被广泛研究),以及抽象目标,如无害性和有益性(在LLM时代后提出),表明我们可以通过细粒度的权衡来实现对齐目标的遵循,并解决LLMs中的残余差距。最后,虽然DeAL可以有效地与RLHF和提示技术配对使用,但其通用性使解码速度较慢,这是我们留给未来工作优化的部分。
最近在强化学习(RL)在现实世界应用方面取得的进展依赖于准确模拟大规模系统的能力。然而,流体动力学系统等领域展示出复杂的动态现象,很难以高整合速率进行模拟,这限制了现代深度RL算法直接应用于通常昂贵或安全关键硬件的可能性。在这项工作中,我们介绍了“Box o Flows”,这是一个新颖的台式实验控制系统,用于系统评估RL算法在动态现实场景中的表现。我们描述了Box o Flows的关键组件,并通过一系列实验展示了最先进的无模型RL算法如何通过简单的奖励规范合成各种复杂行为。此外,我们探讨了离线RL在数据高效假设测试中通过重复利用过去经验的作用。我们相信,通过这项初步研究所获得的见解以及类似Box o Flows系统的可用性将支持开发系统化RL算法的进程,这些算法可以普遍应用于复杂的动态系统。实验的补充材料和视频可在https://sites.google.com/view/box-o-flows/home 获取。