每日精选AI研究论文及翻译
GPT-4o的显著多模态能力和交互体验突显了它们在实际应用中的必要性,然而开源模型很少在这两个领域都表现出色。在本文中,我们介绍了VITA,这是第一个开源的多模态大型语言模型(MLLM),擅长同时处理和分析视频、图像、文本和音频模态,同时具有先进的多模态交互体验。从Mixtral 8x7B作为语言基础出发,我们扩展了其中文词汇,然后进行了双语指导调优。我们进一步通过两阶段多任务学习的多模态对齐和指导调优,赋予语言模型视觉和音频能力。VITA展示了多语言、视觉和音频理解的稳健基础能力,其在一系列单模态和多模态基准测试中表现出色。除了基础能力,我们在增强自然多模态人机交互体验方面取得了可观进展。据我们所知,我们是第一个在MLLM中利用非唤醒交互和音频中断的团队。VITA是开源社区探索多模态理解和交互无缝集成的第一步。尽管在接近闭源对应模型方面还有很多工作要做,但我们希望它作为先驱的角色可以成为后续研究的基石。项目页面:https://vita-home.github.io。
稀疏自编码器(SAEs)是一种无监督方法,用于学习神经网络潜在表示的稀疏分解,将其转化为看似可解释的特征。尽管最近人们对其潜力感到兴奋,但在工业之外的研究应用受到训练全面套件的高成本限制。在这项工作中,我们介绍了 Gemma Scope,这是一个开放套件,其中包括在 Gemma 2 2B 和 9B 的所有层和子层以及 Gemma 2 27B 基础模型的部分层上训练的 JumpReLU SAEs。我们主要在 Gemma 2 预训练模型上训练 SAEs,但另外还发布了在经过指导调整的 Gemma 2 9B 上训练的 SAEs 以供比较。我们评估了每个 SAE 的质量,并发布了这些结果。我们希望通过发布这些 SAE 权重,能够帮助社区更轻松地进行更具野心的安全性和可解释性研究。权重和教程可在 https://huggingface.co/google/gemma-scope 找到,交互式演示可在 https://www.neuronpedia.org/gemma-scope 找到。
多模态大型语言模型(MLLMs)在执行各种单图任务的指令方面展现出了显著的能力。尽管取得了这一进展,但在对长图像序列建模方面仍存在重大挑战。在这项工作中,我们介绍了多功能的多模态大型语言模型 mPLUG-Owl3,它增强了在涉及检索的图像文本知识、交错的图像文本和漫长视频的场景中对长图像序列的理解能力。具体而言,我们提出了新颖的超级注意力块,以高效地将视觉和语言整合到一个共同的语言引导的语义空间中,从而促进对扩展的多图像场景的处理。广泛的实验结果表明,mPLUG-Owl3 在单图像、多图像和视频基准测试中达到了同等规模模型中最先进的性能。此外,我们提出了一个名为“分心抵抗”的具有挑战性的长视觉序列评估,以评估模型在分心干扰中保持专注的能力。最后,通过提出的架构,mPLUG-Owl3 在超长视觉序列输入上展现出了出色的性能。我们希望 mPLUG-Owl3 能为更高效、更强大的多模态大型语言模型的发展做出贡献。
为了扩展和改进视觉-语言模型(VLM)的训练方法,已经进行了重要的研究工作。然而,随着基准测试数量不断增加,研究人员面临着实施每个协议、承担不可忽视的计算成本以及理解所有这些基准测试如何转化为有意义的进展轴的沉重负担。为了促进对VLM进展的系统评估,我们介绍了UniBench:一个统一的实现,涵盖了50多个VLM基准测试,涵盖了从物体识别到空间意识、计数等一系列精心分类的能力。我们展示了UniBench在衡量进展方面的实用性,通过评估近60个公开可用的视觉-语言模型,这些模型的训练规模高达128亿个样本。我们发现,尽管扩展训练数据或模型规模可以提升许多视觉-语言模型的能力,但对于推理或关系,扩展却几乎没有好处。令人惊讶的是,我们还发现当今最好的VLM在简单的数字识别和计数任务上表现不佳,例如MNIST,而更简单的网络可以解决这些任务。在规模方面存在不足之处时,我们发现更精确的干预措施,例如数据质量或定制学习目标,提供了更多的希望。对于从业者,我们还提供了有关为特定应用选择合适的VLM的指导。最后,我们发布了一个易于运行的UniBench代码库,其中包含全部50多个基准测试和59个模型的比较,以及一个经过提炼的代表性基准测试集,在单个GPU上可在5分钟内运行。
最近大型语言模型(LLMs)的进展引发了对工具辅助LLMs解决现实世界挑战的日益增长的研究兴趣,这需要对工具使用能力进行全面评估。之前的研究要么集中在评估基于无状态网络服务(RESTful API)的情况,基于单轮用户提示,要么是基于离线策略对话轨迹。ToolSandbox包括有状态工具执行、工具之间的隐式状态依赖、内置用户模拟器支持基于策略的对话评估,以及针对任意轨迹的中间和最终里程碑的动态评估策略。我们展示了开源和专有模型之间存在显著的性能差距,而ToolSandbox中定义的状态依赖、规范化和信息不足等复杂任务甚至对最具实力的SOTA LLMs也具有挑战性,为工具使用LLMs能力提供了全新的见解。ToolSandbox评估框架已发布在https://github.com/apple/ToolSandbox。
尽管人脸图像超分辨率取得了令人期待的进展,但视频人脸超分辨率仍相对未被充分探索。现有方法要么将通用视频超分辨率网络调整为人脸数据集,要么独立地将已建立的人脸图像超分辨率模型应用于各个视频帧。这些范式在重建面部细节或保持时间一致性方面都面临挑战。为解决这些问题,我们引入了一种名为Kalman启发特征传播(KEEP)的新框架,旨在随时间保持稳定的人脸先验。Kalman滤波原理赋予我们的方法一种循环能力,利用先前恢复的帧的信息来指导和调节当前帧的恢复过程。大量实验证明了我们的方法在跨视频帧一致捕获面部细节方面的有效性。代码和视频演示可在https://jnjaby.github.io/projects/KEEP找到。
文本反转仍然是个受欢迎的个性化扩散模型的方法,用于教授模型新的主题和风格。我们注意到,文本反转在使用UNet之外的替代方法方面尚未得到充分探讨,并尝试将文本反转与视觉Transformer相结合。我们还试图通过一种不需要显式使用UNet及其特殊层的策略来优化文本反转,因此我们添加了奖励标记并强制正交性。我们发现奖励标记的使用改善了对源图像的遵循,而视觉Transformer的使用改善了对提示的遵循。代码可在https://github.com/jamesBaker361/tex_inv_plus找到。
本文介绍了MooER,一种基于LLM的大规模自动语音识别(ASR)/自动语音翻译(AST)模型。使用包含开源和自采集语音数据的5000小时伪标记数据集进行训练。我们实现了与其他使用数十万小时标记语音数据训练的开源模型相媲美的性能。同时,在Covost2 Zh2en测试集上进行的实验表明,我们的模型优于其他开源语音LLM模型。可以获得25.2的BLEU分数。本文的主要贡献总结如下。首先,本文提出了一种针对语音相关任务(包括ASR和AST)的编码器和LLM的训练策略,使用少量伪标记数据,无需额外的手动注释和选择。其次,我们发布了我们的ASR和AST模型,并计划在不久的将来开源我们的训练代码和策略。此外,计划稍后发布一个在8wh规模训练数据上训练的模型。
语音转换的目标是修改源说话者的声音,使其类似于目标说话者,同时保留原始语音内容。尽管近年来语音转换取得了显著进展,但多语种语音转换(包括单语种和跨语种场景)尚未得到广泛研究。它面临两个主要挑战:1)不同语言之间韵律和发音习惯的显著变化;2)来自同一说话者的多语种配对数据的稀缺性。在本文中,我们提出了MulliVC,一种新颖的语音转换系统,仅转换音色,保留原始内容和源语言韵律,而无需多语种配对数据。具体而言,MulliVC 的每个训练步骤包含三个子步骤:第一步使用单语种语音数据对模型进行训练;然后,第二步和第三步借鉴反向翻译的思想,构建一个循环过程,以在没有来自同一说话者的多语种数据的情况下解开音色和其他信息(内容、韵律和其他与语言相关的信息)。客观和主观结果均表明,MulliVC 在单语种和跨语种环境中明显优于其他方法,展示了该系统的有效性以及具有循环一致性的三步方法的可行性。可在我们的演示页面(mullivc.github.io)上找到音频样本。
神经网络语言模型(LMs)已被证明成功捕捉复杂的语言知识。然而,它们在理解语言习得方面的实用性仍存在争议。我们通过提出一个案例研究来参与这一争论,案例中我们使用LMs作为模拟学习者,提出新颖的实验假设,以便与人类进行测试。我们将这一范式应用于研究交互给事关系的一般化(CDG):即在给事结构中对新动词的生产性泛化(她把球扔给我/她把球扔给我)-- 其中已知涉及大量上下文特征空间的习得。我们特别探讨:“训练曝光的哪些特性有助于新动词泛化到(未建模的)替代结构?”为了回答这个问题,我们系统地变化了新的给事动词出现的曝光上下文的特性,涉及主题和接受者的属性,然后分析LMs在未建模的给事结构中对新动词的使用。我们发现LMs重现了儿童CDG的已知模式,作为探索新假设的先决条件。随后的模拟揭示了新动词曝光上下文特性对LMs的CDG的微妙作用。我们发现当曝光上下文的第一个动词后论元是代词,明确的,简短的,并符合曝光给事的典型生物性期望时,CDG会得到促进。这些模式是给事中的和谐对齐的特征,其中在话语突出度量表上排名较高的论元倾向于在另一个之前出现。这产生了一个新的假设,即只要曝光上下文的特性 -- 特别是其第一个动词后论元 -- 是和谐对齐的,CDG就会得到促进。我们最后提出未来可以在儿童中测试这一假设的实验。