每日精选AI研究论文及翻译
数学推理对语言模型构成重大挑战,因为其复杂且结构化的特性。本文介绍了DeepSeekMath 7B,它在Common Crawl获取的120B与自然语言和代码数据相关的数学标记的基础上,继续预训练DeepSeek-Coder-Base-v1.5 7B。DeepSeekMath 7B在竞赛级别的MATH基准测试中取得了令人印象深刻的51.7%的得分,而无需依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。DeepSeekMath 7B的64个样本上的自一致性在MATH上达到了60.9%。DeepSeekMath的数学推理能力归因于两个关键因素:首先,我们通过精心设计的数据选择管道利用公开可获得的网络数据的巨大潜力。其次,我们引入了Group Relative Policy Optimization (GRPO),这是Proximal Policy Optimization (PPO)的一种变体,可以增强数学推理能力,同时优化PPO的内存使用。
文本到图像模型通过允许用户通过自然语言引导图像生成过程,提供了新的创意灵活性。然而,使用这些模型来在不同提示中始终描绘相同主题仍然具有挑战性。现有方法通过微调模型来教授描述特定用户提供主题的新词汇,或向模型添加图像条件。这些方法需要针对每个主题进行漫长的优化或大规模预训练。此外,它们很难将生成的图像与文本提示对齐,并且在描绘多个主题时遇到困难。在这里,我们提出了ConsiStory,这是一种无需训练的方法,通过共享预训练模型的内部激活来实现一致的主题生成。我们引入了一个以主题驱动的共享注意力块和基于对应关系的特征注入,以促进图像之间的主题一致性。此外,我们开发了策略,以鼓励布局多样性同时保持主题一致性。我们将ConsiStory与一系列基准进行比较,并展示了在主题一致性和文本对齐方面的最先进性能,而无需进行任何优化步骤。最后,ConsiStory可以自然地扩展到多主题场景,并甚至实现无需训练的常见对象个性化。
为了帮助开源社区更好地理解基于专家混合(MoE)的大型语言模型(LLMs),我们训练并发布了OpenMoE,一系列完全开源且可复现的仅解码器MoE LLMs,参数范围从650M到34B,并在超过1T的标记上进行了训练。我们的研究证实,基于MoE的LLMs可以提供比密集LLMs更有利的成本效益权衡,突显了未来LLM发展的潜在有效性。 本研究的另一个重要贡献是对我们的OpenMoE模型内路由机制的深入分析,得出了三个重要发现:上下文无关专业化、早期路由学习和朝末端丢弃。我们发现,MoE模型中的路由决策主要基于标记ID,与上下文关联性很小。标记与专家的分配在预训练阶段早期确定,并基本保持不变。这种不完善的路由可能导致性能下降,特别是在顺序任务(如多轮对话)中,后续出现的标记更有可能被丢弃。 最后,我们根据上述观察和分析重新思考了我们的设计。为了促进未来MoE LLM的发展,我们提出了缓解我们发现的问题并进一步改进现成MoE LLM设计的潜在策略。
最近,状态空间模型(SSMs)在大规模语言建模基准测试中展现出与变压器竞争力相当的性能,同时实现了与序列长度成线性关系的时间和内存复杂度。最近发布的SSM模型Mamba在语言建模和长序列处理任务中表现出色。同时,专家混合模型(MoE)在显著降低推断计算和延迟成本的同时,表现出卓越的性能,但以更大的内存占用为代价。本文介绍了BlackMamba,这是一种将Mamba SSM与MoE相结合以获得双方优势的新型架构。我们展示了BlackMamba在竞争性能方面与Mamba和变压器基准相媲美,并在推断和训练FLOPs方面表现出色。我们完全训练并开源了300B令牌的自定义数据集上的340M/1.5B和630M/2.8B BlackMamba模型。我们展示了BlackMamba继承并结合了SSM和MoE架构的双重优势,将SSM的线性复杂度生成与MoE的廉价快速推断相结合。我们开源了所有权重、检查点和推断代码。推断代码位于:https://github.com/Zyphra/BlackMamba
在过去的十年中,可解释机器学习作为一个领域引起了极大关注,这主要受到日益增长的大型数据集和深度神经网络的崛起的推动。与此同时,大型语言模型(LLMs)展示了在各种任务中的显著能力,为重新思考可解释机器学习中的机遇提供了机会。值得注意的是,以自然语言解释的能力使LLMs能够扩大可以呈现给人类的规模和复杂性的模式。然而,这些新能力带来了新的挑战,如虚构的解释和巨大的计算成本。 在这篇立场论文中,我们首先回顾了评估新兴LLM解释领域的现有方法(既解释LLMs又使用LLMs进行解释)。我们认为,尽管存在局限性,LLMs有机会通过更雄心勃勃的范围重新定义可解释性,涵盖许多应用领域,包括审计LLMs本身。我们强调LLM解释的两个新兴研究重点:使用LLMs直接分析新数据集和生成交互式解释。
将语言模型(LMs)与经过精心筛选的人类反馈进行对齐对于控制它们在现实世界应用中的行为至关重要。几种最近的策略优化方法,如DPO和SLiC,作为传统的从人类反馈中强化学习(RLHF)方法的有希望的替代方案。在实践中,人类反馈通常以对多个响应的排名列表的形式出现,以摊销阅读提示的成本。多个响应也可以通过奖励模型或AI反馈进行排名。目前缺乏直接适应响应列表的研究。在这项工作中,我们将LM对齐形式化为一个列表排序问题,并描述了列表偏好优化(LiPO)框架,其中策略可以从给定提示的一个排名合理响应列表中更有效地学习。这种观点明确地与学习排序(LTR)建立了联系,大多数现有的偏好优化工作可以映射到现有的排序目标,特别是成对的目标。在这种联系的基础上,我们提供了一个对LM对齐不太研究的排序目标的检查,其中DPO和SLiC在列表大小为两时作为特例。特别是,我们强调了一种特定方法,LiPO-λ,它利用了最先进的列表排序目标,并以更高级的方式加权每个偏好对。我们展示了LiPO-λ在两个偏好对齐任务上可以明显优于DPO和SLiC。
最近的文本到视频扩散模型取得了令人瞩目的进展。在实践中,用户经常希望能够独立控制物体运动和摄像机移动,以定制视频内容。然而,当前方法缺乏对分别控制物体运动和摄像机移动的关注,这限制了文本到视频模型的可控性和灵活性。在本文中,我们介绍了一种名为Direct-a-Video的系统,允许用户独立指定一个或多个物体的运动和/或摄像机移动,就像导演一部视频一样。我们提出了一种简单而有效的策略,用于分离控制物体运动和摄像机移动。通过使用模型固有的先验知识,通过空间交叉注意力调制来控制物体运动,无需额外的优化。对于摄像机移动,我们引入了新的时间交叉注意力层,以解释定量摄像机移动参数。我们进一步采用基于增强的方法,在小规模数据集上自监督训练这些层,消除了对显式运动注释的需求。这两个组件可以独立运行,允许单独或组合控制,并且可以推广到开放域场景。大量实验证明了我们方法的优越性和有效性。项目页面:https://direct-a-video.github.io/。
我们介绍了InteractiveVideo,这是一个面向用户的视频生成框架。与传统的生成方法不同,传统方法是基于用户提供的图像或文本进行操作,我们的框架设计用于动态交互,允许用户通过各种直观的机制在整个生成过程中指导生成模型,例如文本和图像提示,绘画,拖放等。我们提出了一种协同多模态指导机制,旨在将用户的多模态指导无缝集成到生成模型中,从而促进用户输入和生成过程之间的合作和响应式交互。这种方法通过精确和有效的用户指导实现了生成结果的迭代和精细化改进。通过InteractiveVideo,用户可以灵活地精心定制视频的关键方面。他们可以绘制参考图像,编辑语义,并调整视频动作,直到满足他们的要求为止。代码、模型和演示可在以下网址找到:https://github.com/invictus717/InteractiveVideo
现代大型语言模型(LLMs)的结构化剪枝已经成为降低其高计算需求的一种方式。宽度剪枝减少投影权重矩阵的大小(例如,通过移除注意力头部),同时保持层数不变。相比之下,深度剪枝会移除整个层或块,同时保持剩余权重的大小不变。目前大部分研究集中在仅宽度或宽度和深度剪枝的混合方法上,对于它们对LLM推理效率影响的比较分析较少。在这项工作中,我们展示了一种简单的深度剪枝方法可以在零-shot任务性能方面与最近的宽度剪枝方法竞争。我们的剪枝方法提高了推理速度,特别是在需要限制批量大小来运行LLMs的内存受限条件下,这种情况下宽度剪枝是无效的。我们希望这项工作能帮助在本地和边缘设备上部署LLMs。
人类居住的地球与现代人工智能代理所创建的数字领域之间存在感知鸿沟。要开发能够在现实世界环境中像人类一样灵活感知、思考和行动的人工智能代理,必须弥合数字和物理世界之间的现实差距。我们如何能够在一个丰富多样且没有真实硬件和控制约束的环境中赋予代理人类一样的实体?为此,我们引入了V-IRL:一个能够使代理在虚拟但真实环境中与真实世界可扩展互动的平台。我们的平台既是开发能够完成各种实际任务的代理的游乐场,也是一个广阔的测试基地,用于衡量在全球范围内跨越感知、决策和与真实世界数据互动等能力方面的进展。
鉴于多模式大型语言模型(LLMs)的最新进展,人们越来越关注将其从图像文本数据扩展到更具信息量的真实世界视频。与静态图像相比,视频对于有效的大规模预训练提出了独特挑战,因为需要对其时空动态进行建模。本文针对视频语言预训练中的这些限制,提出了一种高效的视频分解方法,将每个视频表示为关键帧和时间运动。然后,利用精心设计的分词器将其调整到LLM,将视觉和时间信息离散化为少量标记,从而实现视频、图像和文本的统一生成预训练。在推断阶段,从LLM生成的标记被精心恢复到原始连续像素空间,以创建各种视频内容。我们提出的框架既能理解又能生成图像和视频内容,通过在图像和视频理解与生成的13个多模态基准测试中展示出的竞争性表现加以证明。我们的代码和模型将在https://video-lavit.github.io 上提供。
将大型语言模型(LLMs)扩展到理解音频,包括非语音声音和非语言言语,对于LLMs的多样实际应用至关重要。在本文中,我们提出了一种名为Audio Flamingo的新型音频语言模型,具有以下特点:1)强大的音频理解能力,2)通过上下文学习和检索快速适应未见任务的能力,以及3)强大的多轮对话能力。我们引入了一系列训练技术、架构设计和数据策略,以增强我们的模型具备这些能力。通过在各种音频理解任务上进行广泛评估,确认了我们方法的有效性,创立了新的最先进基准。
大型语言模型(LLMs)的强大能力已通过大量数据和计算资源得到证明。然而,在移动设备上应用语言模型面临着计算和内存成本的巨大挑战,即迫切需要高性能的微型语言模型。受高度复杂的训练过程限制,优化语言模型的许多细节很少受到认真研究。在这项研究中,基于一个拥有10亿参数的微型语言模型,我们精心设计了一系列经验研究,以分析每个组件的影响。主要讨论了三个视角,即神经架构、参数初始化和优化策略。几个设计公式在经验上被证明对微型语言模型特别有效,包括分词器压缩、架构微调、参数继承和多轮训练。然后,我们在1.6T多语种语料库上训练了PanGu-pi-1B Pro和PanGu-pi-1.5B Pro,遵循已建立的公式。实验结果表明,改进的优化和架构使PanGu-pi-1B Pro在基准评估集上平均提升了8.87。此外,PanGu-pi-1.5B Pro超越了一系列具有更大模型尺寸的SOTA模型,验证了其卓越性能。代码将很快发布(https://github.com/YuchuanTian/RethinkTinyLM)。
最近的研究表明,规模化的代码语言模型在下游任务,即代码生成方面表现出显著的性能提升。然而,大多数现有的代码表示学习工作是在一个亿参数规模上使用非常有限的预训练语料库进行模型训练。在这项工作中,我们通过一个两阶段的预训练方案,为代码表示学习提供了大量的代码数据。我们首先通过一种混合训练编码器的方式,利用掩码语言建模的随机性和编程语言的结构方面。然后,我们通过对比学习以硬负样本和硬正样本的无监督方式构建来增强表示。我们建立了一个现成的编码器模型,它在各种下游任务上始终以较大的优势表现优于现有模型。为了理解成功代码表示学习的因素,我们进行了详细的消融实验,并分享了我们的发现:(i) 用于源代码的定制且有效的标记级去噪方案的重要性;(ii) 硬负样本和硬正样本的重要性;(iii) 提出的双模态对比学习如何提升跨语言语义搜索性能;以及 (iv) 预训练方案如何决定模型规模与下游任务性能规模之间的关系。
在过去几年中,大规模文本到图像(T2I)扩散模型彻底改变了图像生成领域。尽管具备多样且高质量的生成能力,但将这些能力转化为精细图像编辑仍然具有挑战性。本文提出了DiffEditor,旨在解决现有基于扩散的图像编辑中存在的两个弱点:(1)在复杂场景中,编辑结果常常缺乏编辑准确性并呈现意外的伪影;(2)缺乏协调编辑操作的灵活性,例如,想象新内容。在我们的解决方案中,我们引入了图像提示来进行精细图像编辑,与文本提示合作更好地描述编辑内容。为了增加灵活性同时保持内容一致性,我们将随机微分方程(SDE)局部组合到普通微分方程(ODE)采样中。此外,我们将区域评分为基础的梯度引导和时间旅行策略融入到扩散采样中,进一步提高了编辑质量。大量实验证明,我们的方法可以高效地在各种精细图像编辑任务上实现最先进的性能,包括在单个图像内进行编辑(例如,物体移动、调整大小和内容拖动)以及跨图像进行编辑(例如,替换外观和粘贴物体)。我们的源代码已发布在https://github.com/MC-E/DragonDiffusion。