每日精选AI研究论文及翻译
我们提出了Video-LLaMA,这是一个多模态框架,赋予大型语言模型(LLMs)理解视频中的视觉和听觉内容的能力。Video-LLaMA通过从冻结的预训练视觉和音频编码器以及冻结的LLMs引导跨模态训练。与之前专注于静态图像理解的视觉-LLMs(如MiniGPT-4~zhu2023minigpt和LLaVA~liu2023visualit)不同,Video-LLaMA应对了视频理解中的两个挑战:(1)捕捉视觉场景中的时间变化,(2)集成视听信号。对于第一个挑战,我们提出了Video Q-former,将预训练的图像编码器扩展为视频编码器,并引入了一个视频到文本生成任务,以学习视频-语言对应关系。对于第二个挑战,我们利用ImageBind~girdhar2023imagebind作为预训练的音频编码器,其在将不同模态对齐到一个共同嵌入空间方面表现出色。然后引入一个音频Q-former来学习听觉查询标记。为了将视觉和音频编码器的输出与LLM的嵌入空间对齐,我们在大规模视觉字幕数据集和高数量的视觉指导微调数据集上训练了Video-LLaMA。我们发现Video-LLaMA展示了感知和理解视频内容的能力,生成的有意义响应根植于视频中的视觉和听觉信息。这突显了Video-LLaMA作为音视频AI助手的潜在潜力。我们的代码、预训练模型和演示可在https://github.com/DAMO-NLP-SG/Video-LLaMA找到。
Polyglot 是一个开创性项目,旨在提升多语言语言模型的非英语语言性能。尽管存在各种多语言模型,如mBERT(Devlin等,2019)、XGLM(Lin等,2022)和BLOOM(Scao等,2022),研究人员和开发人员通常会因对当前多语言模型在非英语语言能力方面的不满而转而构建各自语言的单语言模型。为填补这一空白,我们致力于开发先进的多语言语言模型,以提供改进的非英语语言性能。在本文中,我们介绍了Polyglot 韩语模型,它具有特定的焦点而非多语言性质。与TUNiB合作,我们的团队精心收集了1.2TB的韩语数据,为我们的研究之旅做好了准备。我们有意决定在涉足多语言模型之前,优先发展韩语模型。这一选择受到多重因素的推动:首先,韩语模型有助于与现有多语言模型进行性能比较;最后,它们满足了韩国公司和研究人员的特定需求。本文介绍了我们在开发Polyglot 韩语模型方面的工作,提出了一些解决多语言语言模型中非英语语言性能差距的步骤。
大型语言模型(LLMs)在执行各种推理任务时,显著受益于“Chain-of-Thought”(CoT)提示。虽然CoT允许模型生成更全面的推理过程,但其强调中间推理步骤可能会无意中引入幻觉和累积错误,从而限制模型解决复杂推理任务的能力。受人类如何进行谨慎细致的演绎逻辑推理过程以解决任务的启发,我们致力于使语言模型能够执行明确严谨的演绎推理,并通过自我验证确保推理过程的可信性。然而,即使使用像ChatGPT这样的先进模型,直接验证整个演绎推理过程的有效性也是具有挑战性的。鉴于此,我们提议将推理验证过程分解为一系列逐步子过程,每个子过程仅接收其必要的上下文和前提。为了促进这一过程,我们提出了“自然程序”(Natural Program),这是一种基于自然语言的演绎推理格式。我们的方法使模型能够生成精确的推理步骤,其中后续步骤更严谨地建立在前期步骤之上。它还赋予语言模型以逐步方式进行推理自我验证的能力。通过将这一验证过程整合到每个演绎推理阶段中,我们显著增强了生成推理步骤的严谨性和可信度。在这一过程中,我们还提高了对复杂推理任务的答案正确性。代码将在https://github.com/lz1oceani/verify_cot上发布。
将文本转换为大规模和多样化数据集的文本到语音系统已被证明在实现音色和语音风格泛化方面非常有效,特别是在零样本文本到语音系统中。然而,先前的研究通常使用音频编解码器将语音编码为潜在变量,并使用自回归语言模型或扩散模型来生成语音,这忽略了语音的内在特性,可能导致结果较差或无法控制。我们认为语音可以分解为几个属性(如内容、音色、韵律和相位),每个属性都应该使用具有适当归纳偏差的模块进行建模。从这个角度出发,我们精心设计了一种名为Mega-TTS的新型大规模零样本文本到语音系统,该系统使用大规模多样化的数据进行训练,并以不同方式模拟不同的属性:1)我们仍然选择使用频谱图作为中间特征,而不是使用音频编解码器编码的潜在变量,因为频谱图能够很好地分离相位和其他属性。相位可以通过基于GAN的声码器适当构造,无需由语言模型进行建模。2)我们使用全局向量来模拟音色,因为音色是一个随时间变化缓慢的全局属性。3)我们进一步使用基于VQGAN的声学模型生成频谱图,并使用潜在编码语言模型来适应韵律的分布,因为韵律在句子中随时间变化较快,而语言模型可以捕捉局部和长距离依赖关系。我们将Mega-TTS扩展到包含20,000小时语音的多领域数据集,并在未知说话者上评估其性能。实验结果表明,由于每个模块的适当归纳偏差,Mega-TTS在零样本文本到语音、语音编辑和跨语言文本到语音任务上均超越了最先进的文本到语音系统,具有更优越的自然性、稳健性和说话者相似度。音频样本可在https://mega-tts.github.io/demo-page上找到。
我们提出了MotionDiffuser,这是一种基于扩散的表示方法,用于描述多个智能体未来轨迹的联合分布。这种表示具有几个关键优势:首先,我们的模型学习到了一个能够捕捉多样化未来结果的高度多模态分布。其次,简单的预测器设计仅需要一个单一的L2损失训练目标,并且不依赖于轨迹锚点。第三,我们的模型能够以置换不变的方式学习多个智能体运动的联合分布。此外,我们利用PCA实现了压缩轨迹表示,提高了模型性能,并实现了精确样本对数概率的高效计算。随后,我们提出了一个通用的受限采样框架,基于可微成本函数实现了受控轨迹采样。这种策略可以实现一系列应用,如强制规则和物理先验,或创建定制仿真场景。MotionDiffuser可以与现有的主干架构结合,实现最佳的运动预测结果。我们在Waymo开放运动数据集上获得了多智能体运动预测的最新成果。
最近,文本引导的3D生成方法在生成高质量纹理和几何方面取得了显著进展,充分利用了大规模视觉-语言和图像扩散模型的普及。然而,现有方法仍然在两个方面难以创建高保真度的3D头像:(1) 它们主要依赖预训练的文本到图像扩散模型,缺乏必要的3D意识和头部先验知识。这使它们在生成头像时容易出现不一致性和几何失真。(2) 它们在细粒度编辑方面表现不佳。这主要是由于从预训练的2D图像扩散模型继承的限制,当涉及到3D头像时,这些限制变得更加明显。在这项工作中,我们通过引入一种名为HeadSculpt的多功能粗到细的流程来解决这些挑战,用于从文本提示中塑造(即生成和编辑)3D头像。具体而言,我们首先通过利用基于地标的控制和表示头部背面外观的学习文本嵌入,为扩散模型配备3D意识,从而实现一致的3D头像生成。我们进一步提出了一种新颖的身份感知编辑评分蒸馏策略,通过优化具有高分辨率可微渲染技术的纹理网格,实现身份保留并遵循编辑指令。我们通过全面的实验和与现有方法的比较展示了HeadSculpt卓越的保真度和编辑能力。
我们提出了PolyVoice,这是一个基于语言模型的语音到语音翻译(S2ST)系统框架。我们的框架包括两个语言模型:一个翻译语言模型和一个语音合成语言模型。我们使用离散化的语音单元,这些单元是完全无监督生成的,因此我们的框架可用于未书写的语言。对于语音合成部分,我们采用现有的VALL-E X方法,并构建基于单元的音频语言模型。这使我们的框架能够保留原始语音的语音特征和说话风格。我们在中文到英文和英文到西班牙文对上测试了我们的系统。实验结果显示,我们的系统能够生成具有高翻译质量和音频质量的语音。语音样本可在https://speechtranslation.github.io/polyvoice找到。
基于代码训练的大型语言模型展现了提升软件开发人员生产力的巨大潜力。已经提出了几种基于执行的基准测试来评估模型生成代码在简单编程问题上的功能正确性。然而,考虑到执行成本,在复杂的实际项目上执行相同的评估是昂贵的。相反,静态分析工具如代码检查器可以在不运行程序的情况下检测错误,但尚未被广泛用于评估代码生成模型。在这项工作中,我们提出了一个静态评估框架,通过利用抽象语法树来量化Python代码补全中的静态错误。与基于执行的评估相比,我们的方法不仅更高效,而且适用于实际代码。在实验中,我们从开源代码库中收集代码上下文,利用公共模型生成了一百万个函数体。我们的静态分析揭示了未定义名称和未使用变量是语言模型产生的代码中最常见的错误之一。通过广泛研究,我们还展示了采样温度、模型大小和上下文对代码补全中静态错误的影响。
去噪扩散概率模型以其出色的保真度和多样性改变了图像生成领域。我们展示它们在估计光流和单目深度方面也表现出色,令人惊讶的是,无需针对这些任务主导的特定架构和损失函数。与传统基于回归的方法的点估计相比,扩散模型还能实现蒙特卡洛推断,例如捕捉光流和深度中的不确定性和模糊性。通过自监督预训练、结合合成和真实数据进行监督训练、技术创新(填充和步进展开去噪扩散训练)来处理嘈杂不完整的训练数据,以及一种简单的粗到精细的改进形式,可以训练用于深度和光流估计的最先进的扩散模型。广泛实验侧重于针对基准、消融实验以及模型捕捉不确定性和多模态性、填补缺失值的定量性能。我们的模型,DDVM(去噪扩散视觉模型),在室内NYU基准测试中获得了0.074的最先进相对深度误差,而在KITTI光流基准测试中的Fl-all异常值率为3.26\%,比最佳已发表方法提高了约25\%。有关概述,请参阅 https://diffusion-vision.github.io。
三值和二值神经网络实现了无需乘法运算,如果在专用硬件上实现,可以比全精度网络获得多个数量级的效率提升。然而,由于参数和输出空间都高度离散化,这类网络很难进行优化。对于变压器文本生成模型,由于注意力操作对量化的敏感性以及自回归解码在高基数输出空间中的噪声叠加效应,这些困难变得更加复杂。我们采用基于统计的权重量化和激活弹性量化的混合方法来解决这个问题,并在摘要和机器翻译的下游任务上展示了第一个三值和二值变压器模型。我们的三值BART基准模型在CNN/DailyMail基准测试中获得了41的R1分数,仅比完整模型低3.9分,同时效率提高了16倍。我们的二值模型虽然准确性较低,但获得了35.6的非常可观分数。在机器翻译方面,我们在WMT16 En-Ro基准测试上获得了21.7和17.6的BLEU分数,而完整精度的mBART模型得分为26.8。我们还在8位激活设置中比较了我们的方法,在这种设置下,我们的三值甚至二值权重模型可以与文献中最佳的8位权重模型相匹敌或超越。我们的代码和模型可在以下链接找到:https://github.com/facebookresearch/Ternary_Binary_Transformer
概念擦除旨在从表示中移除指定特征。它可用于提高公平性(例如,防止分类器使用性别或种族)和可解释性(例如,删除一个概念以观察模型行为的变化)。在本文中,我们介绍了LEAst-squares Concept Erasure(LEACE),这是一种闭式方法,可以明确地防止所有线性分类器检测到一个概念,同时对表示造成的损害最小。我们将LEACE应用于大型语言模型,采用一种称为“概念擦除”的新程序,从网络的每一层中擦除目标概念信息。我们在两项任务上展示了我们方法的实用性:衡量语言模型对词性信息的依赖性,以及减少BERT嵌入中的性别偏见。代码可在https://github.com/EleutherAI/concept-erasure 找到。
我们提出了语义解释器(Semantic Interpreter),这是一个面向生产力软件(如Microsoft Office)的自然语言友好型人工智能系统,利用大型语言模型(LLMs)来执行用户意图跨应用程序功能。虽然LLMs擅长理解以自然语言表达的用户意图,但对于实现需要超出文本到文本转换的特定应用程序用户意图来说并不足够。因此,我们引入了Office领域特定语言(ODSL),这是一种简洁、高级的语言,专门用于在Office应用程序中执行操作并与实体交互。语义解释器利用分析-检索提示构建方法与LLMs进行程序合成,将自然语言用户话语翻译为可以转译为应用程序API并随后执行的ODSL程序。我们的讨论主要集中在针对Microsoft PowerPoint 的研究探索上。
最近,代码的大型语言模型(Code-LLMs)为代码补全带来了巨大的进展,这是编程辅助和代码智能的基本功能。然而,大多数现有研究忽视了在生成过程中可能存在的代码上下文中的错误,这在软件开发中是不可避免的。因此,我们引入并研究了有缺陷代码补全问题,灵感来自于实时代码建议的现实场景,其中代码上下文包含潜在错误 - 可能会在完成的程序中成为错误的反模式。为了系统地研究这一任务,我们引入了两个数据集:一个包含从改变语义的操作符变化中衍生的合成错误(buggy-HumanEval),另一个包含从用户提交的编程问题中衍生的现实错误(buggy-FixEval)。我们发现潜在错误的存在显著降低了高性能的Code-LLMs的生成性能。例如,对于buggy-HumanEval测试用例,CodeGen-2B-mono的通过率在上下文中存在一个潜在错误时下降超过50%。最后,我们研究了几种事后方法来减轻潜在错误的不利影响,并发现在事后减轻性能方面仍存在很大差距。
神经表面重建已被证明在通过基于图像的神经渲染恢复密集3D表面方面非常强大。然而,当前方法在恢复真实场景的详细结构方面存在困难。为了解决这一问题,我们提出了Neuralangelo,它将多分辨率3D哈希网格的表示能力与神经表面渲染相结合。两个关键要素使我们的方法成为可能:(1) 用于计算高阶导数的数值梯度作为平滑操作,以及 (2) 在控制不同细节级别的哈希网格上进行由粗到细的优化。即使没有深度等辅助输入,Neuralangelo也能够从多视图图像中有效恢复密集的3D表面结构,其保真度显著超过先前的方法,从而实现了从RGB视频捕获中对大规模场景进行详细重建。
随着大型语言模型的发展,许多引人瞩目的语言系统如ChatGPT蓬勃发展,并在许多任务上取得了惊人的成功,展示了基础模型的令人难以置信的强大能力。为了释放基础模型在视觉任务上的潜力,最近提出了一种名为Segment Anything Model(SAM)的视觉基础模型,用于图像分割,并在许多下游2D任务上展现出强大的零样本能力。然而,SAM能否适应3D视觉任务尚未被探索,特别是3D目标检测。受此启发,我们在本文中探讨了将SAM的零样本能力应用于3D目标检测。我们提出了一个以SAM为动力的BEV处理流程,用于检测物体,并在大规模Waymo开放数据集上取得了令人期待的结果。作为一次早期尝试,我们的方法迈出了在视觉基础模型下进行3D目标检测的一步,并提供了释放它们在3D视觉任务上能力的机会。代码已发布在https://github.com/DYZhang09/SAM3D。
本技术论文介绍了一个聊天机器人系统,利用了最近大规模语言模型(LLMs)的进展,如GPT-3和ChatGPT。该系统集成了一个共语手势生成系统,根据语音的概念含义选择适当的手势。我们的动机是探索如何利用LLMs的最新进展来实现实际机器人应用,这有利于聊天机器人和LLMs的发展。具体来说,它通过利用LLMs实现高度响应的聊天机器人系统的开发,并为LLMs的用户界面添加视觉效果,从而增加附加值。该系统的源代码可在GitHub上找到,用于我们内部机器人(https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation)和丰田HSR(https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures)。
基于自回归模型的文本有时会生成重复且质量低下的输出,因为在生成过程中错误会累积。这个问题通常被归因于曝光偏差 - 模型在训练时和在推断过程中的使用方式之间的差异。去噪扩散模型提供了一种替代方法,其中模型可以重新访问和修订其输出。然而,它们可能在计算上昂贵,以往在文本方面的努力导致的模型产生的流畅性较差,特别是对于较长的文本和段落。在本文中,我们提出了PLANNER,这是一个将潜在语义扩散与自回归生成相结合的模型,以在段落上全局控制的同时生成流畅的文本。该模型通过将自回归的“解码”模块与使用潜在扩散以粗到细的方式生成语义段落嵌入的“规划”模块相结合来实现这一目标。所提出的方法在各种条件生成任务上进行了评估,语义生成、文本补全和摘要的结果显示了其在高效生成高质量长文本方面的有效性。
使用对比图像文本匹配损失(如P(match|text, image))进行判别式预训练的视觉语言模型(VLMs)因缺乏组合理解而受到批评。这意味着即使原始标题被重新排列为不同的语义陈述,它们可能会输出相似的分数。为了解决这个问题,我们提出使用P(text|image)的{bf视觉生成预训练分数(VisualGPTScore)},这是一个多模态生成分数,它使用基于图像的语言模型来捕捉在图像条件下的文本标题的可能性。与认为VLMs仅是词袋模型的观点相反,我们的现成VisualGPTScore在最近提出的评估组合推理的图像文本检索基准(如ARO和Crepe)上表现出顶尖性能。此外,我们将VisualGPTScore分解为P(text)的边际和点间互信息(PMI)的乘积。这有助于(a)诊断具有强语言偏见的数据集,并且(b)使用信息论框架对其他基准(如Winoground)的结果进行去偏。VisualGPTScore提供了有价值的见解,并为未来评估视觉语言组合性提供了强大的基线。
基于互联网规模数据训练的大型文本到视频模型展现出在从任意文本描述生成高保真视频方面的卓越能力。然而,将这些模型调整到具有有限领域特定数据的任务,如动画或机器人视频,面临着重要的计算挑战,因为微调预训练的大型模型可能成本过高。受到一个小的可修改组件(例如提示、前缀微调)如何调整大型语言模型以执行新任务而无需访问模型权重的启发,我们研究如何调整一个大型预训练文本到视频模型以适应各种下游领域和任务而无需微调。在回答这个问题时,我们提出了Video Adapter,它利用大型预训练视频扩散模型的得分函数作为概率先验,引导生成一个特定任务的小型视频模型。我们的实验表明,Video Adapter能够将广泛知识整合到一个特定任务的小型视频模型中,并保留大型预训练视频模型的高保真度,从而能够在各种任务上生成高质量且专业化的视频,如动画、自我中心建模以及模拟和真实世界机器人数据建模。更多视频可在网站https://video-adapter.github.io/找到。
软件漏洞给企业带来了重大成本。尽管在软件漏洞检测方法的研究和开发方面进行了大量努力,但仍然存在未被发现的漏洞,继续使软件所有者和用户面临风险。许多当前的漏洞检测方法要求在尝试检测之前,代码片段必须能够编译和构建。不幸的是,这会在漏洞注入和移除之间引入很长的延迟,这可能会大大增加修复漏洞的成本。我们认识到,当前机器学习的进展可以用于检测在EditTime编写代码时的语法不完整的代码片段中的易受攻击的代码模式。在本文中,我们提出了一个实用系统,利用大规模易受攻击的代码模式数据集上的深度学习,学习超过250种漏洞类型的复杂表现,并在EditTime检测易受攻击的代码模式。我们讨论了在最先进的预训练大型语言模型(LLMs)上的零样本、少样本和微调方法。我们展示了与最先进的漏洞检测模型相比,我们的方法将最先进水平提高了10%。我们还评估了我们的方法在代码LLMs中检测自动生成的代码中的漏洞。在一组高风险代码场景的基准测试中,我们的方法显示漏洞减少高达90%。