每日精选AI研究论文及翻译
尽管最近的大规模文本转语音(TTS)模型取得了显著进展,但在语音质量、相似度和韵律方面仍存在不足。考虑到语音复杂地涵盖了各种属性(例如内容、韵律、音色和声学细节),这给生成带来了重大挑战,一个自然的想法是将语音因子分解为代表不同属性的个体子空间,并分别生成它们。受此启发,我们提出了NaturalSpeech 3,这是一个具有新颖的因子扩散模型的TTS系统,可以以零-shot方式生成自然语音。具体而言,1)我们设计了一个具有因子化向量量化(FVQ)的神经编解码器,将语音波形分解为内容、韵律、音色和声学细节的子空间;2)我们提出了一个因子化扩散模型,根据其对应的提示生成每个子空间中的属性。通过这种因子化设计,NaturalSpeech 3可以以一种分而治之的方式有效且高效地对复杂的语音进行建模。实验证明,NaturalSpeech 3在质量、相似度、韵律和可懂性方面优于最先进的TTS系统。此外,通过扩展至10亿参数和20万小时的训练数据,我们实现了更好的性能。
我们提出了一个新颖的框架,通过利用微调的多模态语言模型(MLM)来过滤图像文本数据。我们的方法通过整合MLM的最新进展,优于主流的过滤方法(例如CLIPScore)。我们设计了四个独特但互补的度量标准,全面衡量图像文本数据的质量。我们建立了一个新的流程,用于构建高质量的指导数据,以微调MLM作为数据过滤器。与CLIPScore相比,我们的MLM过滤器产生更精确和全面的分数,直接提高了过滤数据的质量,并提升了预训练模型的性能。我们在流行的基础模型(即CLIP和BLIP2)和各种下游任务上取得了显著改进。我们的MLM过滤器可以推广到不同的模型和任务,并可用作CLIPScore的即插即用替代品。我们还提供了额外的消融研究,以验证我们对MLM过滤器的设计选择。
大型语言模型(LLMs)展示了在解决问题方面的显著能力。然而,它们在解决数学问题方面的熟练程度仍然不足。我们提出了MathScale,这是一种简单且可扩展的方法,可以利用前沿LLMs(例如GPT-3.5)创建高质量的数学推理数据。受人类数学学习中的认知机制启发,该方法首先从种子数学问题中提取主题和知识点,然后构建概念图,随后用于生成新的数学问题。MathScale在我们生成的数学数据集的规模轴上展现出了有效的可扩展性。因此,我们创建了一个包含两百万数学问题-答案对的数学推理数据集(MathScaleQA)。为了全面评估LLMs的数学推理能力,我们构建了MwpBench,这是一个数学问题词问题基准,包含了十个数据集(包括GSM8K和MATH),涵盖了K-12、大学和竞赛级别的数学问题。我们将MathScaleQA应用于微调开源LLMs(例如LLaMA-2和Mistral),从而显著提高了数学推理能力。在MwpBench上评估,MathScale-7B在所有数据集上均实现了最先进的性能,分别比同等规模的最佳对手提高了42.9%的微平均准确率和43.7%的宏平均准确率。
在模型质量的可持续改进中,规模律发挥着关键作用。不幸的是,迄今为止的推荐模型并没有展现出类似于大型语言模型领域中观察到的规模律,这是由于它们的扩展机制的低效性。这一限制在将这些模型调整到日益复杂的真实世界数据集方面带来了重大挑战。在本文中,我们提出了一种基于纯粹堆叠因子分解机的有效网络架构,以及一种协同扩展策略,统称为Wukong,以在推荐领域建立规模律。Wukong的独特设计使其能够通过更高更宽的层简单捕捉各种任意阶的交互作用。我们在六个公共数据集上进行了广泛评估,结果表明Wukong在质量方面始终优于最先进的模型。此外,我们在一个内部的大规模数据集上评估了Wukong的可扩展性。结果显示,Wukong在质量上保持优势,同时在模型复杂度的两个数量级范围内保持规模律,延伸至100 Gflop或相当于GPT-3/LLaMa-2规模的总训练计算,而之前的方法则表现不佳。
多模交互系统的发展受到富含多模(文本、图像)对话数据的缺乏阻碍,这种数据在大量情况下对于LLMs是必需的。先前的方法通过检索图像来增强文本对话,但存在隐私、多样性和质量约束。在这项工作中,我们引入了多模增强生成图像对话(MAGID),这是一个框架,用于将仅文本对话与多样化和高质量的图像相结合。随后,应用扩散模型来生成相应的图像,确保与识别的文本保持一致。最后,MAGID融入了一个创新的反馈循环,介于图像描述生成模块(文本LLM)和图像质量模块之间(涉及美学、图像文本匹配和安全性),二者协同工作生成高质量和多模对话。我们在三个对话数据集上将MAGID与其他SOTA基线进行比较,使用自动化和人工评估。我们的结果表明,MAGID与基线相当或更好,在人工评估中有显著改进,特别是在图像数据库较小的检索基线方面。
大型语言模型(LLMs)已被证明在各种任务中比传统方法优越得多。然而,它们昂贵的计算和高内存需求阻碍了部署。模型量化是减少这种开销的有效方法。问题在于,在大多数先前的工作中,量化模型是使用来自训练数据的少量样本进行校准的,这可能会影响量化LLMs对未知情况和任务的泛化。因此,在这项工作中,我们探讨一个重要问题:我们是否可以设计一种适用于LLMs的数据无关量化方法,以确保其泛化性能?在这项工作中,我们提出EasyQuant,这是一种无需训练且数据无关的仅权重量化算法,用于LLMs。我们的观察表明,权重和量化范围中的异常值是减少量化误差的关键因素。因此,在EasyQuant中,我们保留异常值(小于1%)不变,并优化量化范围以减少重构误差。通过这些方法,我们惊讶地发现EasyQuant实现了与原始模型相媲美的性能。由于EasyQuant不依赖任何训练数据,量化LLMs的泛化性能得到了安全保证。此外,EasyQuant可以并行实现,使得即使对于超过100B的LLMs,量化模型也可以在几分钟内获得。据我们所知,我们是首个在数据无关设置下实现了几乎无损量化性能的LLMs的工作,而且我们的算法运行速度比依赖数据的方法快10倍以上。
尽管现有的多模态大型语言模型(MLLMs)取得了显著进展,但在细粒度视觉识别方面仍然表现不佳。与以往研究相反,我们从图像分辨率的角度研究了这一问题,并揭示了低分辨率和高分辨率视觉特征的组合可以有效地缓解这一缺点。基于这一观察,我们提出了一种新颖高效的方法,用于MLLMs,名为分辨率混合适应(MRA)。具体而言,MRA为具有不同分辨率的图像采用两个视觉路径,其中高分辨率视觉信息通过新颖的分辨率混合适配器(MR-Adapters)嵌入到低分辨率路径中。这种设计还极大地减少了MLLMs的输入序列长度。为了验证MRA,我们将其应用于最近的一个MLLM,名为LLaVA,并将新模型称为LLaVA-HR。我们在11个视觉-语言(VL)任务上进行了大量实验,结果显示LLaVA-HR在8个VL任务上优于现有的MLLMs,例如在TextVQA上提高了+9.4%。更重要的是,LLaVA-HR的训练和推断在MRA的帮助下仍然高效,例如,相比LLaVA-1.5,训练时间减少至20小时,推断速度提高了3倍。源代码已发布在:https://github.com/luogen1996/LLaVA-HR。
从内容审核到野生动物保护,需要模型识别微妙或主观视觉概念的应用数量正在增加。传统上,为这类概念开发分类器需要大量手动工作,需要花费数小时、数天,甚至数月来识别和注释训练所需的数据。即使使用最近提出的敏捷建模技术,可以快速引导图像分类器,用户仍然需要花费30分钟甚至更多的单调重复数据标记来训练单个分类器。借鉴菲斯克的认知懒汉理论,我们提出了一个新框架,通过用自然语言交互取代人工标注,减少定义概念所需的总工作量一个数量级:从标记2,000张图像到仅需100张加一些自然语言交互。我们的框架利用了最近基础模型的进展,包括大型语言模型和视觉-语言模型,通过对话和自动标记训练数据点来划分概念空间。最重要的是,我们的框架消除了对众包注释的需求。此外,我们的框架最终产生了可在成本敏感场景中部署的轻量级分类模型。在15个主观概念和2个公共图像分类数据集中,我们训练的模型表现优于传统的敏捷建模以及ALIGN、CLIP、CuPL等最先进的零样本分类模型,以及大型视觉问答模型如PaLI-X。
在目标条件的模仿学习(IL)中,自然语言和图像通常被用作目标表示。然而,自然语言可能存在歧义,图像可能过度详细。在这项工作中,我们提出手绘草图作为视觉模仿学习中目标规定的一种形式。草图易于用户即时提供,类似于语言,但与图像类似,它们还可以帮助下游策略具有空间感知能力,甚至超越图像以区分任务相关和任务无关的对象。我们提出了RT-Sketch,这是一个用于操作的目标条件策略,它以所需场景的手绘草图作为输入,并输出动作。我们在一组配对轨迹和相应的合成生成目标草图的数据集上对RT-Sketch进行训练。我们在一个关节式台面上涉及桌面物体重新排列的六种操作技能上评估了这种方法。实验结果表明,在简单设置中,RT-Sketch能够表现出与图像或语言条件代理相似的水平,同时在语言目标含糊不清或存在视觉干扰时具有更强的鲁棒性。此外,我们展示了RT-Sketch具有解释和执行具有不同特定级别的草图的能力,从简单的线条草图到详细的彩色草图。有关补充材料和视频,请访问我们的网站:http://rt-sketch.github.io。
最近神经场领域的发展为形状生成领域带来了非凡的能力,但它们缺乏关键属性,比如增量控制 - 这是艺术工作的基本要求。另一方面,三角网格是大多数几何相关任务的首选表示,提供了高效和直观的控制,但不适合神经优化。为了支持下游任务,先前的研究通常提出了一个两步方法,首先使用神经场生成形状,然后提取网格以进行进一步处理。相反,在本文中,我们介绍了一种混合方法,保持网格和有符号距离场(SDF)表示的一致性。利用这种表示,我们引入了MagicClay - 一种艺术家友好的工具,可以根据文本提示对网格的区域进行雕塑,同时保持其他区域不变。我们的框架在每一步的形状优化中谨慎而高效地平衡了表示和正则化之间的一致性;依靠网格表示,我们展示了如何以更高的分辨率和更快的速度渲染SDF。此外,我们利用最近的可微分网格重建工作,根据SDF指示,自适应地分配网格中所需的三角形。通过一个实现的原型,我们展示了与最先进技术相比更优秀的生成几何形状,并且具有新颖的一致控制,首次允许基于顺序提示对同一网格进行编辑。