每日精选AI研究论文及翻译
最近,使用深度学习技术进行音乐音频的端到端生成活动呈现爆发式增长。然而,大多数模型集中于根据抽象调节信息生成完全混合的音乐。在这项工作中,我们提出了一种用于生成音乐的替代范式,该范式可以听取并响应音乐背景。我们描述了如何使用非自回归、基于Transformer的模型架构构建这样的模型,并提出了一些新颖的架构和采样改进。我们在一个开源数据集和一个专有数据集上训练了所描述的架构。我们使用标准质量指标和基于音乐信息检索描述符的新方法评估生成的模型。结果模型达到了最先进的文本调节模型的音频质量,并且在音乐连贯性方面表现出色。
小规模模型提供了各种计算优势,但规模对问题解决能力的关键程度仍然是一个悬而未决的问题。特别是对于解决小学数学问题,迄今为止在GSM8K基准测试中打破80\%障碍所需的最小模型规模仍然是34B。我们的研究探讨了高质量数据集如何成为小型语言模型获得数学推理能力的关键。我们引入了TinyGSM,这是一个由GPT-3.5完全生成的包含1230万个小学数学问题及其Python解决方案的合成数据集。在TinyGSM上微调后,我们发现一个由13亿生成模型和13亿验证模型组成的双模型组合可以实现81.5%的准确率,优于数量级更大的现有模型。这也与GPT-3.5“教师”模型(77.4%)的性能相媲美,我们的模型训练数据即由该模型生成。我们的方法简单明了,包括两个关键组成部分:1)高质量数据集TinyGSM,2)使用验证器,从多个候选生成中选择最终输出。
人们通过图形用户界面(GUI),例如计算机或智能手机屏幕,在数字设备上花费了大量时间。大型语言模型(LLMs)如ChatGPT可以帮助人们完成写邮件等任务,但在理解和与GUI互动方面存在困难,从而限制了它们提高自动化水平的潜力。在本文中,我们介绍了CogAgent,这是一个拥有180亿参数的视觉语言模型(VLM),专门用于GUI的理解和导航。通过利用低分辨率和高分辨率图像编码器,CogAgent支持以1120*1120的分辨率输入,使其能够识别微小的页面元素和文本。作为一种通用的视觉语言模型,CogAgent在五个文本丰富和四个通用VQA基准上取得了最先进的成果,包括VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。CogAgent仅使用屏幕截图作为输入,在PC和Android GUI导航任务上优于消耗提取的HTML文本的基于LLM的方法--Mind2Web和AITW,推动了技术的发展。该模型和代码可在https://github.com/THUDM/CogVLM 上获得。
一致性模型在高效图像生成方面展现出强大能力,并允许在少数采样步骤内进行综合,从而减轻扩散模型中的高计算成本。然而,在更具挑战性和资源消耗大的视频生成中,一致性模型仍未得到充分探索。在本报告中,我们提出了VideoLCM框架来填补这一空白,该框架利用了从图像生成中的一致性模型的概念,以在保持高质量的同时,通过最少的步骤高效合成视频。VideoLCM基于现有的潜在视频扩散模型,并结合了一致性蒸馏技术来训练潜在的一致性模型。实验结果显示了我们的VideoLCM在计算效率、保真度和时间一致性方面的有效性。值得注意的是,VideoLCM仅需四个采样步骤即可实现高保真度和平滑的视频合成,展示了实时合成的潜力。我们希望VideoLCM可以作为后续研究的简单而有效的基准线。源代码和模型将公开提供。
大规模视觉-语言数据集的筛选方法在数据集大小和质量之间进行权衡。然而,即使是现有的最高质量的筛选字幕也远远不足以捕捉图像中丰富的视觉细节。为了展示密集且高度对齐的图像-文本配对的价值,我们收集了密集字幕图像(DCI)数据集,包含8012张自然图像,人工注释了与蒙版对齐的描述,每个描述平均超过1000个字。通过精确可靠的字幕与图像特定部分相关联,我们可以评估视觉-语言模型(VLMs)对图像内容的理解,提出了一个新颖的任务,将每个字幕与其相应的子裁剪匹配。由于当前模型通常限制为77个文本标记,我们还引入了一个总结版本(sDCI),其中每个字幕长度受限。我们表明,对标准基准取得进展的现代技术并不意味着在基于我们的基准sDCI上取得显著改进。最后,我们使用sDCI微调了CLIP,并显示出明显的改进,尽管训练集规模较小。通过发布第一个人工注释的密集图像字幕数据集,我们希望能够促进新一代VLMs的新基准或微调配方的发展。
目前用于3D形状的扩散或基于流的生成模型可分为两种:提炼预训练的2D图像扩散模型,以及直接在3D形状上进行训练。在对3D形状进行扩散或流模型训练时,一个关键的设计选择是形状表示。一种有效的形状表示需要遵循三个设计原则:它应该允许将大型3D数据集高效地转换为表示形式;它应该在逼近能力与参数数量之间提供良好的权衡;并且它应该具有与现有强大神经架构兼容的简单张量形式。尽管标准的3D形状表示,如体积网格和点云,无法同时遵循所有这些原则,但我们在本文中提倡一种新的能够做到的表示形式。我们引入Mosaic-SDF(M-SDF):一种简单的3D形状表示,通过使用分布在形状边界附近的一组局部网格来近似给定形状的有符号距离函数(SDF)。M-SDF表示对每个形状的计算速度快,易于并行化;它在参数效率上表现出色,因为它仅覆盖形状边界周围的空间;并且它具有与基于Transformer的架构兼容的简单矩阵形式。我们通过使用M-SDF表示来训练一个3D生成流模型来展示其有效性,包括使用3D Warehouse数据集进行类别条件生成,以及使用约60万个标题-形状对数据集进行文本到3D生成。
近年来,大型语言模型取得了巨大成功,视觉领域的变体也如此。现有的视觉-语言模型能够用自然语言描述图像,回答与视觉相关的问题,或对图像进行复杂推理。然而,目前尚不清楚如何利用大型语言模型执行诸如词语定位或指代定位等定位任务。在这项工作中,我们旨在开发一个视觉-语言模型,可以将位置(例如一组点或框)作为输入或输出。当将位置作为输入时,模型执行基于位置的字幕生成,为指定的对象或区域生成字幕。当生成位置作为输出时,我们的模型通过回归每个语言模型生成的输出词的像素坐标,从而执行密集词语定位。我们的模型在定位叙事数据集上进行了预训练,该数据集包含了人类注意力的像素-词对齐字幕。我们展示了我们的模型可应用于各种位置感知的视觉-语言任务,包括指代定位、基于位置的字幕生成和密集对象字幕生成,在RefCOCO和Visual Genome上实现了最先进的性能。项目页面:https://jerryxu.net/PixelLLM。
本文介绍了一种新颖的方法,用于增强大型语言模型(LLMs)在处理和理解大量文本序列方面的能力,这在需要深度理解和综合大量信息的应用中至关重要。鉴于在Transformer架构上构建的LLMs在扩展上下文窗口方面存在的挑战,我们提出了一种新的模型架构,称为Zebra。该架构通过采用分组局部-全局注意力层,有效地管理了Transformer中完全注意力所带来的二次时间和内存复杂性问题。我们的模型类似于斑马的交替条纹,平衡了局部和全局注意力层,显著降低了计算需求和内存消耗。我们进行了全面的实验,包括从头开始的预训练、长上下文适应训练的延续以及长指令调整,以评估Zebra的性能。结果表明,Zebra在短序列和长序列基准上实现了可比或更优越的性能,同时提高了训练和推断效率。
借助大规模文本到图像生成模型的支持,文本到3D头像生成已取得令人期待的进展。然而,大多数方法未能产生逼真的结果,受到不精确的几何形状和低质量外观的限制。为了更实用的头像生成,我们提出了SEEAvatar,一种从文本生成逼真3D头像的方法,其中包含用于解耦几何形状和外观的SElf-Evolving约束。对于几何形状,我们建议通过将优化后的头像与模板头像在良好的全局形状上进行约束来生成头像。模板头像以人类先验初始化,并可以定期由优化后的头像更新为演变模板,从而实现更灵活的形状生成。此外,几何形状还受到脸部和手部等局部的静态人类先验的约束,以保持精细的结构。对于外观生成,我们使用扩散模型结合提示工程来引导基于物理的渲染管线生成逼真的纹理。光亮度约束应用于反照率纹理,以抑制不正确的光照效果。实验证明,我们的方法在全局和局部几何形状以及外观质量方面均大幅优于先前的方法。由于我们的方法可以生成高质量的网格和纹理,这些资源可以直接应用于经典图形管线中,在任何光照条件下进行逼真渲染。项目页面网址:https://seeavatar3d.github.io。
在强化学习的研究前沿之一是构建能够在丰富开放式环境中实现多个目标的通用智能体。构建具有强化学习的通用智能体的一个关键限制因素是需要大量的奖励函数来实现不同的目标。我们调查了使用现成的视觉-语言模型(VLMs)作为强化学习智能体奖励来源的可行性。我们展示了如何从CLIP模型系列中导出用于视觉实现各种语言目标的奖励,并用于训练能够实现各种语言目标的RL智能体。我们在两个不同的视觉领域展示了这种方法,并呈现了一个扩展趋势,显示更大的VLMs会导致更准确的视觉目标实现奖励,进而产生更有能力的RL智能体。
最近推出的ControlNet 具有利用几何输入(如人体2D姿势或边缘特征)引导文本驱动图像生成过程的能力。虽然ControlNet 能够控制生成图像中实例的几何形式,但缺乏指导每个实例视觉外观的能力。我们提出FineControlNet,以在保持精确姿势控制能力的同时,提供对每个实例外观的精细控制。具体而言,我们通过人体姿势图像实现几何控制,通过实例级文本提示实现外观控制,并展示了FineControlNet。实例特定文本提示和2D姿势在潜在空间中的空间对齐使FineControlNet 具有精细控制能力。我们通过与最先进的姿势条件文本到图像扩散模型进行严格比较来评估FineControlNet 的性能。FineControlNet 在生成遵循用户提供的实例特定文本提示和姿势的图像方面表现出优越性能,相较于现有方法。项目网页:https://samsunglabs.github.io/FineControlNet-project-page
扩散模型(DMs)因其能够生成高质量、多样化图像而备受关注,尤其是在最近的文本到图像生成方面取得了重大进展。研究重点现在转向DMs的可控性。该领域内一个重要挑战是局部编辑,即修改图像特定区域而不影响其余内容。本文介绍了一种用于扩散模型中局部图像编辑的LIME方法,无需用户指定感兴趣区域(RoI)或额外文本输入。我们的方法利用预训练方法的特征和简单的聚类技术获取精确的语义分割图。然后,通过利用交叉注意力图,对这些段进行细化以进行局部编辑。最后,我们提出了一种新颖的交叉注意力正则化技术,在去噪步骤中惩罚RoI中不相关的交叉注意力分数,确保局部编辑。我们的方法在不重新训练和微调的情况下,在各种编辑基准测试中始终提高了现有方法的性能。
本文介绍了GLEE,这是一个用于在图像和视频中定位和识别对象的对象级基础模型。通过统一框架,GLEE实现了在开放世界场景中检测、分割、跟踪、定位和识别任意对象的能力,适用于各种对象感知任务。采用一致的学习策略,GLEE从不同监督级别的多样数据源中获取知识,形成通用的对象表示,在零样本迁移到新数据和任务时表现出色。具体来说,我们采用图像编码器、文本编码器和视觉提示器处理多模态输入,使其能够同时解决各种以对象为中心的下游任务,同时保持最先进的性能。通过在来自不同基准的五百万张图像上进行广泛训练,GLEE表现出卓越的多功能性和改进的泛化性能,有效地处理下游任务,无需特定任务的适应。通过集成大量自动标记的数据,我们进一步增强了其零样本泛化能力。此外,GLEE可以集成到大型语言模型中,作为一个基础模型,为多模态任务提供通用的对象级信息。我们希望我们方法的多功能性和通用性将在为AGI系统开发高效的视觉基础模型方面迈出重要一步。模型和代码将在https://glee-vision.github.io 上发布。
本研究探讨了在大型语言模型(LLMs)中类似GPTQ的4位量化方法,突出了GPTQ在零样本任务中的过拟合和有限的改进。之前的研究仅关注零样本测量,我们将任务范围扩展到更多生成类别,如代码生成和抽象总结,在这些领域中发现INT4量化可能表现不佳。然而,简单地转向更高精度格式如FP6却尤为具有挑战性,因为当前人工智能硬件上缺乏复杂的集成和系统加速策略,从而被忽视。我们的结果显示,即使采用粗粒度量化方案,FP6在各种算法和任务中表现稳健,展示了其在准确性和多功能性方面的优势。值得注意的是,采用FP6量化后,\codestar-15B模型在代码生成方面的表现与其FP16对应模型相当,对于像406M这样的较小模型,在总结方面与它们的基准模型表现接近。这是INT4无法实现的。为了更好地适应各种人工智能硬件并实现最佳系统性能,我们提出了一种新颖的4+2设计,用于FP6,以实现与最先进的INT4细粒度量化相似的延迟。通过我们的设计,FP6可以成为当前用于LLMs的4位量化方法的一个有前途的解决方案。
奖励模型在将语言模型应用程序与人类偏好保持一致方面起着关键作用。然而,这种设置会导致语言模型利用奖励模型中的错误来实现高估奖励的激励,这种现象通常被称为奖励欺骗。一种自然的缓解方法是训练一组奖励模型,聚合模型输出以获得更稳健的奖励估计。我们探讨了将奖励集成应用于训练时间(通过强化学习)和推断时间(通过重新排序)的对齐。首先,我们表明奖励模型是欠规范的:在分布中表现相似的奖励模型在对齐时可能产生非常不同的奖励,这是由于分布转移造成的。其次,欠规范导致过度优化,即对一个奖励模型的对齐并不会提高另一个在相同数据上训练的奖励模型所衡量的奖励。第三,过度优化通过使用奖励集成来缓解,通过其预训练种子不同的集成比仅通过微调种子不同的集成具有更好的泛化性能,两者均优于单个奖励模型。然而,即使是预训练奖励集成也无法消除奖励欺骗:我们展示了几种定性奖励欺骗现象,这些现象不受集成的缓解,因为集成中的所有奖励模型都表现出相似的错误模式。
最近文本到3D生成技术的进展显著推动了将文本描述转换为富有想象力、几何形状良好且纹理精细的3D对象。尽管取得了这些进展,但一个普遍存在的限制是扩散或重建模型中使用RGB数据,这经常导致模型具有固有的光照和阴影效果,从而减弱其逼真度,从而限制了它们在需要准确重照能力的应用中的可用性。为了弥合这一差距,我们提出了UniDream,这是一个文本到3D生成框架,通过整合统一的扩散先验。我们的方法包括三个主要组成部分:(1)双阶段训练过程,获得反照率-法线对齐的多视角扩散和重建模型,(2)基于训练的重建和扩散模型,使用得分蒸馏样本(SDS)的渐进生成过程,生成几何形状和反照率纹理,(3)创新地应用SDS来完成基于稳定扩散模型的PBR生成,同时保持固定的反照率。广泛的评估表明,UniDream在生成具有更清晰反照率纹理、更平滑表面、增强逼真度和优越重照能力的3D对象方面超越了现有方法。
在这项工作中,我们介绍了Vision-Language Generative Pre-trained Transformer(VL-GPT),这是一种能够同时感知和生成视觉和语言数据的Transformer模型。VL-GPT通过采用直观的自回归目标实现了图像和文本两种模态的统一预训练方法,从而使模型能够像处理文本的语言模型一样无缝地处理图像和文本。为了实现这一目标,我们首先提出了一种新颖的图像分词器-去分词器框架,专门设计用于将原始图像转换为连续嵌入序列并相应地重构它们。结合现有的文本分词器和去分词器,这一框架允许将交织的图像-文本数据编码为多模态序列,随后可以输入到Transformer模型中。因此,VL-GPT能够利用统一的自回归目标(即下一个标记预测)在多模态语料库上进行大规模预训练。完成预训练后,VL-GPT在各种视觉和语言理解与生成任务中表现出卓越的零样本和少样本性能,包括图像字幕生成、视觉问答、文本到图像生成等。此外,当提供多模态提示时,预训练模型可以重新学习上下文学习能力。我们进一步对VL-GPT进行指令微调,突出其在多模态辅助方面的卓越潜力。源代码和模型权重将会发布。
我们提出了一种名为Shap-Editor的新型前馈3D编辑框架。 先前关于编辑3D对象的研究主要集中在利用现成的2D图像编辑网络编辑单个对象。这是通过一种称为蒸馏的过程实现的,该过程将知识从2D网络转移到3D资产。蒸馏需要至少几十分钟才能获得令人满意的编辑结果,因此并不是很实用。相比之下,我们探讨了是否可以通过一个前馈网络直接进行3D编辑,避免测试时的优化。具体来说,我们假设通过首先将3D对象编码到适当的潜在空间中,可以大大简化编辑过程。我们通过构建在Shap-E的潜在空间基础上来验证这一假设。我们展示了在这个空间中进行直接3D编辑是可能且高效的,通过构建一个仅需要大约一秒钟完成每次编辑的前馈编辑器网络。我们的实验表明,Shap-Editor在不同提示下很好地推广到分布内和分布外的3D资产,表现出与为每个编辑实例执行测试时优化的方法相当的性能。
我们发布并介绍了TigerBot系列大型语言模型(LLMs),包括基础模型和聊天模型,参数规模分别为70亿和180亿。我们从Llama-2和BLOOM开始开发我们的模型,并在数据、训练算法、基础设施和应用工具方面不断突破界限。我们的模型在性能上显著超越了SOTA开源模型,例如Llama-2,在英语上提升了6%,在中文上提升了20%。TigerBot模型系列在主要学术和工业基准测试以及排行榜中取得了领先的性能。我们相信TigerBot仅代表了LLM开源社区快速发展的一个缩影。因此,我们很高兴通过公开发布我们的模型并报告背后的方法来回馈社区,特别强调以民主化方式构建SOTA LLMs,并使LLMs在现实应用中发挥作用。