每日精选AI研究论文及翻译
去噪扩散概率模型(DDPMs)已经展现出在语音合成方面有着令人期待的表现。然而,为了获得高质量样本,需要大量的迭代步骤,这限制了推断速度。在增加采样速度的同时保持样本质量已经成为一项具有挑战性的任务。在本文中,我们提出了一种基于“一致性模型”的语音合成方法CoMoSpeech,通过单次扩散采样步骤实现语音合成,同时获得高音频质量。一致性约束被应用于从一个精心设计的基于扩散的教师模型中提炼出一致性模型,最终在提炼的CoMoSpeech中产生出优越的性能。我们的实验表明,通过单次采样步骤生成音频记录,CoMoSpeech在单个NVIDIA A100 GPU上的推断速度比实时快150多倍,这与FastSpeech2可媲美,使基于扩散采样的语音合成变得真正实用。同时,在文本到语音和歌声合成的客观和主观评估中,所提出的教师模型产生了最佳音频质量,而基于一步采样的CoMoSpeech在推断速度上表现最佳,并且具有比其他传统多步扩散模型基线更好或可比的音频质量。音频样本可在https://comospeech.github.io/获取。
我们提出了区域感知的开放词汇视觉Transformer(RO-ViT)- 一种对比图像-文本预训练方法,用于弥合图像级预训练与开放词汇目标检测之间的差距。在预训练阶段,我们建议随机裁剪和调整位置嵌入的区域,而不是使用整个图像的位置嵌入。这样更好地匹配了检测微调阶段中区域级别使用位置嵌入的情况。此外,我们用焦点损失替换了对比学习中常见的softmax交叉熵损失,以更好地学习信息丰富但困难的示例。最后,我们利用最近的新颖对象提议的进展来改进开放词汇检测的微调。我们在LVIS和COCO开放词汇检测基准以及零样本迁移上评估了我们的完整模型。RO-ViT在LVIS上实现了32.1的AP_r,超过了现有最佳方法5.8个百分点,同时具有竞争力的零样本迁移检测。令人惊讶的是,RO-ViT还改进了图像级表示,并在COCO和Flickr图像-文本检索基准的12个指标中的9个上实现了最新技术,胜过了具有更大模型的竞争方法。
受到预训练和指导微调流程的推动,能够解决各种语言领域任务的通用语言模型已经出现。然而,构建通用的视觉-语言模型具有挑战性,因为额外的视觉输入引入了增加的任务差异。虽然视觉-语言预训练已被广泛研究,但视觉-语言指导微调仍相对较少被探讨。本文针对预训练的BLIP-2模型,对视觉-语言指导微调进行了系统和全面的研究。我们收集了26个公开可用数据集的各种数据,将其转换为指导微调格式,并将其分类为两个簇,用于保留指导微调和保留零样本评估。此外,我们引入了指导感知的视觉特征提取,这是一种关键方法,使模型能够提取针对给定指导的信息丰富特征。由此产生的InstructBLIP模型在所有13个保留数据集上实现了最先进的零样本性能,明显优于BLIP-2和更大的Flamingo。我们的模型在单独的下游任务微调时也实现了最先进的性能(例如,在ScienceQA IMG上达到90.7%的准确率)。此外,我们定性地展示了InstructBLIP相对于同时进行的多模态模型的优势。所有InstructBLIP模型均已在https://github.com/salesforce/LAVIS/tree/main/projects/instructblip 开源。
我们提出了一种新颖的方法,利用预训练的文本到图像扩散模型中封装的先验知识来进行盲超分辨率(SR)。具体来说,通过使用我们的时间感知编码器,我们可以在不改变预训练合成模型的情况下实现令人满意的恢复结果,从而保留生成先验并最小化训练成本。为了弥补扩散模型固有随机性导致的保真度损失,我们引入了一个可控特征包裹模块,允许用户在推断过程中通过简单调整标量值来平衡质量和保真度。此外,我们开发了一种渐进聚合采样策略,以克服预训练扩散模型的固定尺寸限制,实现对任意尺寸分辨率的适应。通过对我们的方法使用合成和真实基准的全面评估,证明了其优于当前最先进方法的优越性。
视觉Transformer因其高模型能力而取得了巨大成功。然而,其卓越性能伴随着沉重的计算成本,使其不适用于实时应用。在本文中,我们提出了一系列名为EfficientViT的高速视觉Transformer。我们发现现有Transformer模型的速度通常受到内存效率低下操作的限制,特别是MHSA中的张量重塑和逐元素函数。因此,我们设计了一种新的构建模块,采用三明治布局,即在高效FFN层之间使用单个受内存限制的MHSA,从而提高内存效率同时增强通道通信。此外,我们发现注意力图在不同头之间存在高度相似性,导致计算冗余。为了解决这个问题,我们提出了一个级联组注意力模块,将全特征的不同分割提供给注意力头,这不仅节省了计算成本,还提高了注意力多样性。全面的实验表明,EfficientViT优于现有的高效模型,在速度和准确性之间取得了良好的平衡。例如,我们的EfficientViT-M5在准确性上超过了MobileNetV3-Large 1.9%,在Nvidia V100 GPU和Intel Xeon CPU上的吞吐量分别提高了40.4%和45.2%。与最近的高效模型MobileViT-XXS相比,EfficientViT-M2在准确性上提高了1.8%,在GPU/CPU上运行速度分别提高了5.8倍/3.7倍,并在转换为ONNX格式时提高了7.4倍。代码和模型可在https://github.com/microsoft/Cream/tree/main/EfficientViT找到。
CLIP是连接图像和文本的第一个基础模型,已经在计算机视觉领域取得了许多重大突破。然而,其相关的训练成本过高,这对其广泛探索构成了重大障碍。本文提出了一个令人惊讶的发现,即CLIP训练存在一个反向缩放定律,即使用更大的图像/文本编码器,可以应用于训练的图像/文本令牌序列长度就越短。此外,我们展示了减少图像/文本令牌长度的策略在确定该缩放定律的质量方面起着至关重要的作用。 由于这一发现,我们成功地使用学术资源训练了CLIP。例如,在一台A100八GPU服务器上,我们的CLIP模型在约2天内达到了63.2%的零样本ImageNet top-1准确率,在约3天内达到了67.8%,在约4天内达到了69.3%。通过降低与CLIP相关的计算障碍,我们希望激发更多学术界在这一领域的研究。我们的代码可在https://github.com/UCSC-VLAA/CLIPA找到。
大型语言模型(LLMs)在多语言神经机器翻译(MNMT)中表现出惊人的性能,即使在没有平行数据的情况下进行训练也能取得良好效果。然而,尽管训练数据量庞大,它们仍然在翻译罕见词汇方面遇到困难,尤其是对于低资源语言。更糟糕的是,通常无法为LLMs检索相关示例以进行低资源语言的上下文学习,这限制了LLMs在翻译中的实际应用。我们应该如何缓解这个问题呢?为此,我们提出了一种新方法,即CoD,它利用多语言词典链的先验知识来增强LLMs对部分输入词的翻译能力。大量实验证明,通过将CoD与ChatGPT相结合,MNMT的ChrF++分数可以提高多达13倍(英语到使用西里尔字母表的塞尔维亚语的FLORES-200完整开发测试集从3.08提高到42.63)。我们进一步展示了链式多语言词典的重要性,以及CoD相对于低资源语言的少样本示例的优越性。
判断标题是否正确描述图像的能力是视觉语言理解的关键部分。然而,最先进的模型经常会误解细粒度细节的正确性,导致输出错误,例如在生成的标题中产生物体幻觉或组合推理能力不佳。在这项工作中,我们探讨了令牌级置信度,即 TLC,作为一种简单但出乎意料地有效的评估标题正确性的方法。具体而言,我们在图像字幕上对视觉语言模型进行微调,将图像和提议的标题输入模型,并聚合代数或学习的令牌置信度,以估计图像标题一致性。与预训练模型的序列级得分相比,具有代数置信度测量的 TLC 在 SVO-Probes 的动词理解中实现了 10% 的相对准确度提高,并且在 Winoground 的图像和组得分方面分别相对提高了 37% 和 9%,超越了先前的最先进技术。当有训练数据可用时,学习的置信度估计器提供了进一步改进的性能,相对于原始模型,在 MS COCO Captions 中减少了物体幻觉率的 30%,创造了一个新的最先进技术。
大型语言模型(LLMs)展示了令人印象深刻的多语言能力,但它们在不同语言之间的性能差异很大。在这项工作中,我们引入了一种简单而有效的方法,称为跨语言思维提示(XLT),系统地提高LLMs的多语言能力。具体而言,XLT是一个通用的模板提示,可以激发跨语言和逻辑推理能力,以增强不同语言任务的性能。我们在涵盖推理、理解和生成任务的7个典型基准上进行了全面评估,涵盖了高资源和低资源语言。实验结果表明,XLT不仅显著提高了各种多语言任务的性能,还显著缩小了不同语言中每个任务的平均性能和最佳性能之间的差距。值得注意的是,XLT在算术推理和开放领域问答任务中带来了超过10个平均改进点。
生成与视频的视觉内容相配的高质量音乐是一项具有挑战性的任务。大多数现有的视觉条件音乐生成系统生成符号音乐数据,如MIDI文件,而不是原始音频波形。鉴于符号音乐数据的有限可用性,这种方法只能为少数乐器或特定类型的视觉输入生成音乐。在本文中,我们提出了一种名为V2Meow的新方法,它可以生成与各种视频输入类型的视觉语义良好对齐的高质量音乐音频。具体来说,所提出的音乐生成系统是一个多阶段自回归模型,它通过与视频帧配对的来自野外音乐视频的约O(100K)音乐音频剪辑进行训练,而不涉及平行符号音乐数据。V2Meow能够仅基于从任意无声视频剪辑提取的预训练视觉特征来合成高保真音乐音频波形,同时还允许通过支持文本提示来控制生成示例的音乐风格,除了视频帧的条件。通过定性和定量评估,我们证明了我们的模型在视觉-音频对应和音频质量方面优于几种现有音乐生成系统。
终身学习(LL)是自然语言处理模型持续学习新任务的重要能力。基于架构的方法被认为是LL模型的有效实现。然而,将先前的方法扩展到领域增量LL场景并不简单,因为它们要么需要在测试阶段访问任务标识,要么无法处理来自未见任务的样本。在本文中,我们提出了Diana:一种基于动态架构的终身学习模型,旨在通过增强语言模型来学习一系列任务。Diana使用四种层次化组织的提示来捕获不同粒度的知识。具体而言,我们专门设计了任务级提示来捕获特定任务的知识,以保持高LL性能,并保留实例级提示来学习跨输入样本共享的知识,以提高模型的泛化性能。此外,我们专门为未见任务明确建模,并引入一组提示关键向量来促进任务之间的知识共享。大量实验证明,Diana在处理未见任务方面优于最先进的LL模型。我们在https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana 上发布了代码和数据。
大型语言模型(LLMs)已经展示出在零样本或少样本情况下对新任务进行泛化的卓越能力。然而,LLMs在多大程度上能够根据用户先前的行为理解用户偏好,仍然是一个新兴且尚不清晰的研究问题。传统上,协同过滤(CF)一直是这些任务中最有效的方法,主要依赖大量的评分数据。相比之下,LLMs通常需要的数据量明显较少,同时又能保持对每个项目(如电影或产品)的详尽世界知识。在本文中,我们对CF和LLMs在经典的用户评分预测任务中进行了彻底的研究,该任务涉及基于用户过去的评分来预测用户对候选项目的评分。我们研究了不同规模的LLMs,参数范围从250M到540B,并评估它们在零样本、少样本和微调场景中的性能。我们进行了全面的分析,比较了LLMs和强大的CF方法之间的差异,并发现零样本LLMs落后于具有用户互动数据访问权限的传统推荐模型,这表明用户互动数据的重要性。然而,通过微调,LLMs在只使用少量训练数据的情况下实现了可比甚至更好的性能,展示了它们在数据效率方面的潜力。
我们提出了一种基于物理的人形控制器,能够在存在嘈杂输入(例如来自视频的姿势估计或语言生成的姿势)和意外摔倒的情况下实现高保真度的动作模仿和容错行为。我们的控制器能够扩展到学习一万个动作片段,而无需使用任何外部稳定力,并学会自然地从失败状态中恢复。在给定参考动作的情况下,我们的控制器可以持续控制模拟化身,而无需重置。在其核心,我们提出了渐进式乘性控制策略(PMCP),动态分配新的网络容量来学习越来越困难的动作序列。PMCP允许有效地扩展学习大规模动作数据库和添加新任务,例如从失败状态中恢复,而不会发生灾难性遗忘。我们通过在实时多人化身使用案例中使用它来模仿来自基于视频的姿势估计器和基于语言的动作生成器的嘈杂姿势,展示了我们控制器的有效性。
像ChatGPT这样的大型语言模型最近展示了在自然语言理解和生成方面的令人印象深刻的能力,实现了包括翻译、写作和闲聊在内的各种应用。然而,人们担心它们可能被用于恶意目的,比如欺诈或拒绝服务攻击。因此,开发出一种方法来检测对话中涉及的一方是机器人还是人类至关重要。在本文中,我们提出了一个名为FLAIR的框架,通过一次询问和回答来检测在线对话中的对话机器人。具体来说,我们针对一种可以有效区分人类用户和机器人的单一问题场景。这些问题分为两类:对人类容易但对机器人困难的问题(例如计数、替换、定位、噪音过滤和ASCII艺术),以及对机器人容易但对人类困难的问题(例如记忆和计算)。我们的方法展示了这些问题在效果上的不同优势,为在线服务提供商提供了一种新的方式来保护自己免受恶意活动的侵害,并确保他们正在为真实用户提供服务。我们在https://github.com/hongwang600/FLAIR上开源了我们的数据集,并欢迎社区贡献以丰富这样的检测数据集。
文本嵌入是几种自然语言处理应用中的有用特征,例如句子相似度、文本聚类和语义搜索。本文介绍了一种低秩适应方法,该方法在8位Siamese-BLOOM之上采用对比目标,这是一个针对生成语义有意义的词嵌入进行优化的多语言大型语言模型。创新点有三。首先,我们将BLOOM权重转换为8位值。其次,我们使用可扩展的适配器(LoRA)和8位Adam优化器对BLOOM进行微调,用于句子相似度分类。第三,我们在BLOOM模型上应用Siamese架构,采用对比目标来缓解多语言标记数据的稀缺性。实验结果表明,从LACoS-BLOOM学到的嵌入质量与模型参数数量和未标记训练数据量成正比。通过参数高效微调设计,我们能够在单个GPU机器上以32GB内存端到端地运行具有71亿参数的BLOOM。与之前的解决方案Sentence-BERT相比,我们在英语和多语言STS任务上都取得了显著改进。