每日精选AI研究论文及翻译
随着预训练语音识别模型的规模增大,在低延迟或资源受限的环境中运行这些大型模型变得具有挑战性。在这项工作中,我们利用伪标记来构建一个大规模开源数据集,用于将Whisper模型提炼成一个更小的变体,称为Distil-Whisper。通过使用简单的词错误率(WER)启发式方法,我们仅选择最高质量的伪标签进行训练。提炼后的模型速度提升了5.8倍,参数数量减少了51%,同时在零次转移设置中,在分布外测试数据上的WER仅相差1%。Distil-Whisper保持了Whisper模型对复杂声学条件的稳健性,同时在长形音频上减少了幻觉错误的倾向。Distil-Whisper旨在与Whisper配对进行推测解码,从而实现2倍速度提升,同时在数学上确保与原始模型相同的输出。为了促进该领域的进一步研究,我们公开了我们的训练代码、推理代码和模型。
LLaVA-Interactive是一个用于多模态人机交互的研究原型。该系统可以通过获取多模态用户输入并生成多模态响应,与人类用户进行多轮对话。重要的是,LLaVA-Interactive不仅限于语言提示,还可以通过视觉提示来对齐交互中的人类意图。LLaVA-Interactive的开发非常具有成本效益,因为该系统结合了LLaVA的视觉聊天、SEEM的图像分割以及GLIGEN的图像生成和编辑等三种多模态技能的预构建AI模型,无需额外的模型训练。展示了多样的应用场景,以展示LLaVA-Interactive的潜力,并激发未来在多模态交互系统领域的研究。
我们展示了如何利用扩散模型中的条件生成来解决在制作44.1kHz立体声音频中具有采样时间指导的多种现实任务。我们考虑的场景包括音乐音频的延续、修复和再生,创建两个不同音乐曲目之间的平滑过渡,以及将期望的风格特征转移到现有音频片段中。我们通过在采样时间应用指导,使用一个简单的框架来实现这一点,该框架支持重建和分类损失,或两者的任何组合。这种方法确保生成的音频能够与其周围环境匹配,或者符合相对于任何适当的预训练分类器或嵌入模型指定的类分布或潜在表示。
我们展示文本作为一个强大的跨模态接口。与依赖深度嵌入将图像和语言连接作为接口表示不同,我们的方法将图像表示为文本,从中我们获得了自然语言固有的可解释性和灵活性。我们使用一个自编码器,该自编码器使用预训练的文本到图像扩散模型进行解码。编码器被训练为将输入图像转换为文本,然后将其馈送到固定的文本到图像扩散解码器以重建原始输入 -- 这个过程我们称之为去扩散。实验证实了去扩散文本代表图像的精确性和全面性,使其可以被现成的文本到图像工具和LLM用于各种多模态任务。例如,一个单一的去扩散模型可以泛化为为不同的文本到图像工具提供可转移的提示,并且通过简单地用少量示例提示大型语言模型,在开放式视觉语言任务上取得了新的最先进水平。
最近一波生成式人工智能引起了前所未有的全球关注,人们既兴奋又担忧,担心可能出现超越人类专家水平的人工智能:现在的模型只需几秒钟就能产生挑战甚至超越专家人类能力的输出。与此同时,模型仍然显示出基本的理解错误,即使是非专家人类也不会犯这种错误。这给我们带来了一个明显的悖论:我们如何调和看似超人类能力与少数人类会犯的错误之间的矛盾?在这项工作中,我们认为这种紧张反映了当今生成式模型中智能配置与人类智能之间的分歧。具体而言,我们提出并测试了生成式人工智能悖论假设:生成模型通过直接训练以复制类似专家的输出,获得了不依赖于其理解这些类型输出的生成能力,因此可以超越其理解这些输出的能力。这与人类形成对比,人类基本的理解几乎总是在能够生成专家级输出之前。我们通过对生成式模型在语言和图像模态下的生成与理解进行对照实验来测试这一假设。我们的结果显示,尽管模型在生成方面可以胜过人类,但在理解能力方面始终不及人类,同时在生成和理解表现之间的相关性较弱,对对抗性输入更脆弱。我们的发现支持了模型的生成能力可能不依赖于理解能力的假设,并呼吁在将人工智能类比为人类智能时保持谨慎。
基于像素的语言模型处理以图像形式呈现的文本,这使得它们能够处理任何脚本,从而成为开放词汇语言建模的一种有前途的方法。然而,最近的方法使用生成大量几乎等效输入补丁的文本渲染器,这可能对下游任务不利,因为输入表示中存在冗余。在本文中,我们研究了在PIXEL模型中渲染文本的四种方法(Rust等,2023年),发现简单的字符二元渲染在句子级任务上表现更好,而在标记级或多语言任务上不会降低性能。这种新的渲染策略还使得可以训练一个只有22M参数的更紧凑模型,其性能与原始的86M参数模型相当。我们的分析表明,字符二元渲染导致一个一贯更好的模型,但具有各向异性的补丁嵌入空间,受到补丁频率偏差的驱动,突显了基于图像补丁和基于标记化的语言模型之间的联系。
大型语言模型在生成代码以满足人类需求方面表现出色。然而,用自然语言表达的人类需求可能模糊、不完整和含糊不清,导致大型语言模型误解人类需求并产生错误。更糟糕的是,人类用户很难细化需求。为帮助人类用户细化其需求并提高大型语言模型的代码生成性能,我们提出了ChatCoder:一种通过与大型语言模型聊天来细化需求的方法。我们设计了一个聊天方案,其中大型语言模型将引导人类用户细化其需求表达,使其比以往更加精确、明确和完整。实验证明,ChatCoder大大提升了现有大型语言模型的性能。此外,ChatCoder相较于基于细化的方法和通过人类响应微调的LLMs具有优势。
大型语言模型(LLMs)在各种下游任务中展现出令人印象深刻的性能。在训练这些模型时,越来越倾向于在更大的训练规模上处理更多的标记,但使用相对较小的模型尺寸。零冗余优化器(ZeRO),虽然在传统训练环境中有效,但在面对这种新兴范式时会遇到扩展挑战。为此,我们提出了一种新颖的LLM训练框架AMSP,该框架对模型状态进行了细粒度分区,包括参数(P)、梯度(G)和优化器状态(OS)。具体而言,AMSP:(1)构建了一个统一的分区空间,为P、G和OS提供独立的分区策略;(2)整合了一个规模感知的分区器,自主搜索最佳的分区策略;(3)设计了一个专门的通信优化器,以确保有效地管理由不同分区策略引起的数据放置差异。我们的评估显示,AMSP在1024个GPU上实现了高达90.3%的扩展效率。
视觉-语言模型(VLMs)是在人类模拟对世界的理解时捕获的大量数据上进行训练的。然而,人类对现实的感知并非始终忠实于物理世界,被称为视觉错觉。这引发了一个关键问题:VLMs是否会像人类一样产生类似的错觉,还是它们能够忠实地学习表示现实?为了调查这个问题,我们构建了一个包含五种类型视觉错觉的数据集,并制定了四项任务来检查最先进的VLMs中的视觉错觉。我们的研究结果表明,尽管整体对齐性较低,但更大的模型更接近人类感知,并更容易受到视觉错觉的影响。我们的数据集和初步发现将促进对人类和机器中的视觉错觉有更好的理解,并为未来能够更好地使人类和机器在感知和交流共享的视觉世界方面保持一致的计算模型奠定基础。代码和数据可在https://github.com/vl-illusion/dataset 上获得。