每日精选AI研究论文及翻译
本文探讨了潜在增强大型语言模型(LLMs)数学推理能力的基本因素。我们认为,现代LLMs中数学推理能力的数据缩放规律远未饱和,突出了模型质量随数据量增加而提高的情况。为了支持这一观点,我们介绍了Skywork-Math模型系列,这些模型在常见的7B LLMs上进行了监督微调(SFT),使用我们提出的250万实例的Skywork-MathQA数据集。Skywork-Math 7B 在竞赛级别的MATH基准测试上取得了51.2%的令人印象深刻的准确率,并且在GSM8K基准测试上达到了83.9%的准确率,仅使用SFT数据,胜过了MATH上的GPT-4早期版本。Skywork-Math模型的卓越性能归功于我们的新颖的两阶段数据合成和模型SFT流程,其中包括三种不同的增强方法和多样的种子问题集,确保了Skywork-MathQA数据集在不同难度级别上的数量和质量。最重要的是,我们提供了一些实用的经验教训,以增强LLMs的数学推理能力,适用于研究和工业应用。
我们在构建基础视频扩散模型方面取得了重大进展。由于这些模型是使用大规模无监督数据进行训练的,因此将这些模型调整到特定下游任务变得至关重要。通过监督微调来调整这些模型需要收集视频目标数据集,这是具有挑战性和繁琐的。在这项工作中,我们利用通过对强大视觉判别模型顶部的偏好学习的预训练奖励模型来调整视频扩散模型。这些模型包含相对于生成的 RGB 像素的密集梯度信息,这对于在复杂的搜索空间(例如视频)中进行高效学习至关重要。我们展示了从这些奖励模型向视频扩散模型反向传播梯度可以实现视频扩散模型的计算和样本高效对齐。我们展示了跨多种奖励模型和视频扩散模型的结果,表明我们的方法在奖励查询和计算方面比先前无梯度方法学习效率更高。我们的代码、模型权重和更多可视化内容可在 https://vader-vid.github.io 获取。
尽管当前大多数大型多模态模型(LMMs)已经能够理解自然场景和肖像照片,但它们对抽象图像(例如图表、地图或布局)以及视觉推理能力的理解仍然非常基础。它们经常在简单的日常任务中遇到困难,比如从时钟上读取时间、理解流程图或使用道路地图规划路线。鉴于此,我们设计了一个多模态自我指导系统,利用大型语言模型及其代码能力在日常场景中合成大量抽象图像和视觉推理指导。我们的策略轻松创建了一个多模态基准,包括八个视觉场景的11,193个指导:图表、表格、模拟地图、仪表盘、流程图、关系图、平面图和视觉拼图。这个基准是用简单的线条和几何元素构建的,揭示了大多数先进LMMs(如Claude-3.5-Sonnet和GPT-4o)在抽象图像理解、空间关系推理和视觉元素归纳方面的不足。此外,为了验证我们合成数据的质量,我们使用62,476个合成图表、表格和道路地图指导对一个LMM进行微调。结果表明,图表理解和地图导航性能得到了改善,并展示了对其他视觉推理任务的潜在益处。我们的代码可在以下网址找到:https://github.com/zwq2018/Multi-modal-Self-instruct。
多模态大型语言模型(MLLMs)最近成为学术界和工业界的重要关注焦点。尽管它们在一般多模态场景中表现出色,但在视觉背景下的数学问题解决能力尚未得到充分探索。我们确定了MLLMs中需要改进的三个关键领域:数学图表的视觉编码、图表-语言对齐以及数学推理能力。这引发了对视觉数学领域大规模、高质量数据和训练流程的迫切需求。在本文中,我们提出了MAVIS,这是第一个针对MLLMs的数学视觉指导调优范式,涉及一系列数学视觉数据集和专门的MLLMs。针对这三个问题,MAVIS包含了三个从头开始的渐进训练阶段。首先,我们策划了MAVIS-Caption,包括558K个图表-标题对,通过对比学习来微调一个针对改进图表视觉编码的数学特定视觉编码器(CLIP-Math)。其次,我们利用MAVIS-Caption将CLIP-Math与大型语言模型(LLM)通过一个投影层对齐,增强数学领域中的视觉-语言对齐。第三,我们引入了MAVIS-Instruct,包括精心收集和注释的90万个视觉数学问题,用于最终指导调优MLLM以获得强大的数学推理能力。在MAVIS-Instruct中,我们为每个问题加入了完整的思维链(CoT)理由,并最小化了文本冗余,从而使模型集中于视觉元素。数据和模型发布在https://github.com/ZrrSkywalker/MAVIS。
训练大型语言模型(LLMs)需要大量内存,因为参数数量庞大且伴随着大量优化状态。最近的一种方法GaLore通过将权重梯度投影到低秩子空间来减少内存使用,而不影响性能。然而,GaLore依赖于耗时的奇异值分解(SVD)操作来识别子空间,频繁的子空间更新导致了显著的训练时间开销。此外,与更易于调优的情景下的LoRA相比,GaLore在准确性和效率方面提供的改进微乎其微。为了解决这些限制,我们引入了Q-Galore,一种结合量化和低秩投影的全新方法,大幅减少内存使用,超越了GaLore的优势。我们的方法基于两个关键观察:(i)梯度子空间表现出多样的特性,一些层在训练早期就收敛,而其他层则经常发生变化;(ii)投影矩阵对低比特量化具有高度韧性。利用这些见解,Q-GaLore根据其收敛统计数据自适应地更新梯度子空间,实现可比性能,同时显著减少SVD操作的数量。我们将投影矩阵保持在INT4格式,权重保持在INT8格式,结合随机舍入以捕捉累积梯度信息。这种方法仅使用低精度权重就实现了高精度的训练轨迹。我们展示了Q-GaLore在内存效率方面取得了极具竞争力的性能。在预训练阶段,Q-GaLore使得在单个NVIDIA RTX 4060 Ti上从零开始训练一个LLaMA-7B模型仅需16 GB内存。在微调阶段,与LoRA和GaLore相比,它将内存消耗降低了高达50%,同时在相同内存成本下始终胜过QLoRA。
我们提出了一种新颖的混合Mamba-Transformer骨干,命名为MambaVision,专门为视觉应用量身定制。我们的核心贡献包括重新设计Mamba公式,以增强其对视觉特征高效建模的能力。此外,我们对将Vision Transformers(ViT)与Mamba集成的可行性进行了全面的消融研究。我们的结果表明,在最终层将Mamba架构配备多个自注意力块,极大地提高了捕捉远程空间依赖关系的建模能力。基于我们的发现,我们引入了一系列具有分层架构的MambaVision模型,以满足各种设计标准。对于在ImageNet-1K数据集上的图像分类,MambaVision模型变体在Top-1准确率和图像吞吐量方面实现了新的最先进性能。在MS COCO和ADE20K数据集上的目标检测、实例分割和语义分割等下游任务中,MambaVision优于相同规模的骨干,并表现出更有利的性能。代码:https://github.com/NVlabs/MambaVision。
越来越多的应用程序依赖于一小部分闭源语言模型(LMs)。如果LMs发展出自我识别能力,这种依赖可能会引入新的安全风险。受人类身份验证方法启发,我们提出了一种评估LMs自我识别的新方法,利用模型生成的“安全问题”。我们的测试可以在外部进行,以跟踪前沿模型的发展,因为它不需要访问内部模型参数或输出概率。我们使用这一测试来检验目前公开可用的十个最有能力的开源和闭源LMs中的自我识别。我们的广泛实验未发现任何被检测的LM中存在一般或一致的自我识别的经验证据。相反,我们的结果表明,LMs在给定一组备选项时,会寻求选择“最佳”答案,而不考虑其来源。此外,我们发现关于哪些模型产生最佳答案的偏好在LMs之间是一致的迹象。我们还在多项选择设置中发现了有关LMs的位置偏见考虑的新见解。
随着图像生成和开放式文本生成方面的显著进展,交织图像文本内容的创作已成为一个越来越引人入胜的领域。多模态故事生成以交织方式产生叙事文本和生动图像为特征,已经成为一个具有广泛应用的宝贵且实用的任务。然而,这一任务带来了重大挑战,因为它要求理解文本和图像之间复杂的相互作用,以及生成一系列连贯、与上下文相关的文本和视觉内容。在这项工作中,我们提出了SEED-Story,一种利用多模态大型语言模型(MLLM)生成扩展多模态故事的新方法。我们的模型建立在MLLM强大的理解能力之上,预测文本标记以及视觉标记,随后通过经过调整的视觉去标记器处理,生成具有一致字符和风格的图像。我们进一步提出了多模态注意力汇聚机制,以便以高效的自回归方式生成长达25个序列(仅用于训练的10个)。此外,我们提出了一个名为StoryStream的大规模高分辨率数据集,用于训练我们的模型,并在各个方面定量评估多模态故事生成任务。
出色的数学推理能力是展示大型语言模型(LLMs)强大能力的关键特征之一。如何全面定义和评估LLMs的数学能力,甚至反映用户在现实场景中的体验,已成为一个关键问题。当前的基准主要集中在解决问题的能力上,这存在模型过拟合的重大风险,并未准确代表真正的数学推理能力。在本文中,我们认为,如果一个模型真正理解了一个问题,它应该能够稳健且轻松地应用于各种任务。受此启发,我们引入了MATHCHECK,一个旨在测试任务泛化和推理稳健性的精心设计的检查表,以及一个能够高效生成检查表的自动化工具。MATHCHECK包括多个数学推理任务和稳健性测试类型,以促进对数学推理能力和行为测试的全面评估。利用MATHCHECK,我们开发了MATHCHECK-GSM和MATHCHECK-GEO,分别用于评估数学文本推理和多模态推理能力,作为GSM8k、GeoQA、UniGeo和Geometry3K等基准的升级版本。我们采用MATHCHECK-GSM和MATHCHECK-GEO来评估超过20个LLMs和11个MLLMs,评估它们的全面数学推理能力。我们的结果表明,虽然像GPT-4o这样的前沿LLMs在检查表上继续在各种能力上表现出色,但许多其他模型家族表现出显著下降。进一步的实验表明,与传统数学基准相比,MATHCHECK更好地反映了真实的数学能力,并更线性地代表了数学智能,从而支持我们的设计。在我们的MATHCHECK上,我们可以轻松进行详细的行为分析,以深入研究模型。
现有的多模态大型语言模型(MLLMs)越来越强调对各种视觉元素的复杂理解,包括多个对象、文本信息和空间关系。它们在全面视觉感知的发展上依赖于提供多样化视觉元素和贯穿图像描述的高质量图像文本数据集。然而,目前这种超详细数据集的稀缺性阻碍了MLLM社区的进展。瓶颈源于当前字幕引擎的有限感知能力,无法提供完整准确的注释。为了促进MLLM在全面视觉感知方面的尖端研究,我们因此提出了感知融合,利用低成本但高效的字幕引擎进行完整准确的图像描述。具体来说,感知融合将多样化的感知专家作为图像先验集成,提供有关视觉元素的明确信息,并采用高效的MLLM作为中心枢纽来模仿先进MLLM的感知能力。我们从未经筛选的LAION数据集中精选了100万张高度代表性的图像,并使用我们的引擎生成了密集描述,命名为DenseFusion-1M。大量实验证实了我们的引擎优于其对手,由此产生的数据集显著提高了现有MLLM在各种视觉语言基准测试中的感知和认知能力,特别是在输入为高分辨率图像时。该数据集和代码可在https://github.com/baaivision/DenseFusion 上公开获取。
在开发通用代理程序时,将大型语言模型(LLMs)与各种工具进行整合受到了重视。这给LLMs的工具使用能力带来了挑战。然而,现有工具使用评估与真实场景之间存在明显差距。目前的评估通常使用人工智能生成的查询、单步任务、虚拟工具和仅文本交互,未能有效展示代理程序在真实世界中解决问题的能力。为了解决这个问题,我们提出了GTA,即通用工具代理的基准测试,包括三个主要方面:(i)真实用户查询:由人编写的带有简单真实世界目标但隐含工具使用的查询,需要LLM推理出适当的工具并规划解决步骤。(ii)真实部署工具:一个评估平台,配备了涵盖感知、操作、逻辑和创造力类别的工具,以评估代理程序的实际任务执行性能。(iii)真实多模态输入:真实图像文件,如空间场景、网页截图、表格、代码片段以及印刷/手写材料,作为查询上下文使用,以与真实世界场景紧密对齐。我们设计了229个真实世界任务和可执行工具链,以评估主流LLMs。我们的研究结果显示,现有LLMs对真实世界用户查询具有挑战性,其中GPT-4仅完成不到50%的任务,大多数LLMs的完成率低于25%。这一评估揭示了当前LLMs在真实世界场景中工具使用能力的瓶颈,为推进通用工具代理程序提供了未来方向。代码和数据集可在https://github.com/open-compass/GTA 获取。
我们提出了MELLE,这是一种基于连续值标记的语言建模方法,用于文本到语音合成(TTS)。MELLE通过自回归方式直接从文本条件生成连续的梅尔频谱帧,避免了对矢量量化的需求,矢量量化最初是为音频压缩而设计的,与梅尔频谱相比牺牲了保真度。具体来说,(i)我们采用回归损失和提出的频谱通量损失函数来建模连续值标记的概率分布,而不是交叉熵损失。(ii)我们将变分推断结合到MELLE中,以促进采样机制,从而增强输出多样性和模型鲁棒性。实验证明,与两阶段编解码语言模型VALL-E及其变体相比,单阶段的MELLE通过避免采样离散编码的固有缺陷,减轻了鲁棒性问题,在多个指标上实现了卓越性能,并且最重要的是提供了更简洁的范式。请访问https://aka.ms/melle 查看我们工作的演示。
近年来,大型语言模型(LLMs)的快速发展已经引起了广泛关注。基于强大的LLMs,多模态语言模型(MLLMs)将模态从文本扩展到更广泛的领域,因具有更广泛的应用场景而受到广泛关注。由于LLMs和MLLMs依赖大量的模型参数和数据来实现新兴能力,数据的重要性正在受到越来越广泛的关注和认可。追踪和分析最近针对MLLMs的数据导向作品,我们发现模型和数据的发展并非两条分开的道路,而是相互交织的。一方面,更广泛和更高质量的数据有助于提升MLLMs的性能,另一方面,MLLMs可以促进数据的发展。多模态数据和MLLMs的共同发展需要清晰了解:1)在MLLMs的哪个发展阶段可以采用特定的数据中心方法来增强哪些能力,以及2)通过利用哪些能力并扮演哪些角色,模型可以为多模态数据做出贡献。为促进MLLM社区的数据-模型共同发展,我们从数据-模型共同发展的角度系统回顾了与MLLMs相关的现有作品。与此调查相关的一个定期维护的项目可在https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md访问。
神经网络(NN)在各种任务中取得了显著的成果,但缺乏关键特征:可解释性、对分类特征的支持以及适用于边缘设备的轻量级实现。尽管正在进行的努力旨在解决这些挑战,但梯度提升树(GBT)本质上满足了这些要求。因此,GBT已成为许多现实世界应用和竞赛中监督学习任务的首选方法。然而,它们在在线学习场景中的应用,特别是在强化学习(RL)中,受到了限制。在这项工作中,我们通过引入梯度提升强化学习(GBRL)框架来弥合这一差距,该框架将GBT的优势扩展到RL领域。使用GBRL框架,我们实现了各种演员-评论家算法,并将它们的性能与它们的NN对应物进行了比较。受到NN中共享骨干的启发,我们为具有不同学习率的策略和值函数引入了一种共享树方法,从而在数百万次交互中提高了学习效率。GBRL在各种任务中取得了竞争性能,擅长处理具有结构化或分类特征的领域。此外,我们提供了一个高性能的、GPU加速的实现,可以与广泛使用的RL库无缝集成(可在https://github.com/NVlabs/gbrl 获取)。GBRL扩展了RL从业者的工具包,展示了GBT在RL范式中的可行性和潜力,特别是在具有结构化或分类特征的领域。
大型语言模型在生成流数据(如文本和音频)方面表现出卓越的效果,这要归功于它们的时间单向注意机制,该机制模拟当前标记与先前标记之间的相关性。然而,尽管对实时视频处理的需求不断增长,视频流仍然是一个相对较少探索的领域。当前最先进的视频扩散模型利用双向时间注意力来模拟当前帧与所有周围帧(包括未来帧)之间的相关性,这使它们无法处理流视频。为解决这一问题,我们提出了Live2Diff,这是设计一种具有单向时间注意力的视频扩散模型的首次尝试,专门针对实时流视频翻译。与以往方法相比,我们的方法通过将当前帧与其前导帧以及一些初始预热帧进行相关联,而不涉及任何未来帧,来确保时间一致性和平滑性。此外,我们使用高效的去噪方案,其中包括KV-缓存机制和流水线技术,以促进以交互帧率进行流视频翻译。广泛的实验表明,所提出的注意机制和流水线的有效性,从时间平滑性和/或效率方面优于以往方法。
在基于流的视频帧插值(VFI)中,运动建模至关重要。现有范式要么考虑双向流的线性组合,要么直接预测给定时间戳的双向流,而不探索有利的运动先验,因此缺乏有效建模现实世界视频中时空动态的能力。为了解决这一局限性,在本研究中,我们引入了通用隐式运动建模(GIMM),这是一种新颖而有效的VFI运动建模方法。具体而言,为了使GIMM成为一种有效的运动建模范式,我们设计了一个运动编码流水线,用于对从预训练流估计器中提取的双向流中的时空运动潜在性进行建模,有效地表示特定输入的运动先验。然后,我们通过自适应基于坐标的神经网络隐式预测两个相邻输入帧之间的任意时间步长的光流,其中时空坐标和运动潜在性作为输入。我们的GIMM可以与现有基于流的VFI工作平滑集成,无需进一步修改。我们展示了GIMM在VFI基准测试中优于当前技术水平的表现。
基于自上而下的鸟瞰地图是地面机器人导航中常用的表示形式,因其对下游任务的丰富性和灵活性。尽管最近的方法展现了从第一人称视角图像预测鸟瞰地图的潜力,但其泛化能力仅限于当前自动驾驶车辆数据集捕获的小区域。在这种背景下,我们展示了一种更具可扩展性的通用地图预测方法,即利用两个大规模众包地图平台,即Mapillary用于第一人称视角图像,以及OpenStreetMap用于鸟瞰地图语义。我们引入了Map It Anywhere(MIA),这是一个数据引擎,可实现对现有开源地图平台的标记地图预测数据的无缝策划和建模。利用我们的MIA数据引擎,我们展示了自动收集包含不同地理、景观、环境因素、摄像机型号和捕获场景的120万对第一人称视角图像和鸟瞰地图数据集的便利性。我们进一步在这些数据上训练了一个简单的与摄像机型号无关的模型,用于鸟瞰地图预测。使用已建立的基准测试和我们的数据集进行广泛评估,结果显示,MIA策划的数据使得通用鸟瞰地图预测的有效预训练成为可能,零样本性能远远超过现有数据集训练的基线35%。我们的分析突显了利用大规模公共地图开发和测试通用鸟瞰感知的潜力,为更强大的自主导航铺平了道路。
在这篇观点论文中,我们介绍了专业通用人工智能(SGAI或简称SGI)的概念,这是通往人工通用智能(AGI)的关键里程碑。与直接扩展通用能力相比,SGI被定义为在至少一项任务上专门化的人工智能,超越人类专家,同时保留通用能力。这种融合路径使SGI能够迅速实现高价值领域。我们根据对专业技能掌握程度和通用性能的分类,将SGI分为三个阶段。此外,我们讨论了SGI在解决与大型语言模型相关的问题方面的必要性,如它们的通用性不足、专业能力、创新的不确定性和实际应用。此外,我们提出了一个用于发展SGI的概念框架,该框架整合了系统1和系统2认知处理的优势。该框架包括三个层次和四个关键组成部分,重点是增强个体能力并促进协作演化。最后,我们总结了潜在的挑战,并提出了未来的方向。我们希望所提出的SGI能够为进一步研究和实现AGI的应用提供启示。
虽然由于其照片级质量,NeRFs主导了3D场景重建领域,但最近出现了3D高斯飘零(3DGS),以实时渲染速度提供类似质量。然而,这两种方法主要擅长处理受控制良好的3D场景,而在野外数据中——其特点是遮挡、动态物体和光照变化——仍然具有挑战性。NeRFs可以通过每个图像的嵌入向量轻松适应这些条件,但3DGS由于其显式表示和缺乏共享参数而面临困难。为了解决这个问题,我们引入了WildGaussians,这是一种处理遮挡和外观变化的新方法,结合了强大的DINO特征,并在3DGS内部集成了外观建模模块,我们的方法实现了最先进的结果。我们展示了WildGaussians与3DGS的实时渲染速度相匹配,同时在处理野外数据方面超越了3DGS和NeRF的基准线,所有这些都在一个简单的架构框架内实现。
我们提出了OmniNOCS,这是一个大规模的单目数据集,包含3D标准化对象坐标空间(NOCS)地图、对象掩模和室内外场景的3D边界框注释。OmniNOCS比现有的NOCS数据集(NOCS-Real275、Wild6D)拥有20倍的对象类别和200倍的实例数量。我们使用OmniNOCS来训练一种新颖的、基于Transformer的单目NOCS预测模型(NOCSformer),该模型能够从各种类别的2D对象检测中准确预测NOCS、实例掩模和姿势。这是第一个能够在提示2D框时泛化到广泛类别的NOCS模型。我们在3D定向边界框预测任务上评估了我们的模型,在这个任务中,它实现了与Cube R-CNN等最先进3D检测方法相媲美的结果。与其他3D检测方法不同,我们的模型还提供了详细和准确的3D对象形状和分割。我们基于OmniNOCS提出了NOCS预测任务的新型基准,希望这将成为未来在这一领域的有用基准。我们的数据集和代码将在项目网站上提供:https://omninocs.github.io。
个性化图像美学评估的任务旨在通过少量用户提供的输入,定制美学评分预测模型以符合个人偏好。然而,当前方法的可扩展性和泛化能力受到昂贵策划数据库的限制相当大。为了克服这一长期存在的可扩展性挑战,我们提出了一种独特的方法,利用现成的数据库进行通用图像美学评估和图像质量评估。具体而言,我们将每个数据库视为一个独特的图像评分回归任务,展示了不同程度的个性化潜力。通过确定代表每个数据库特定特征的任务向量的最佳组合,我们成功地为个体创建了个性化模型。这种集成多个模型的方法使我们能够利用大量数据。我们广泛的实验表明了我们的方法在泛化到以前未见领域方面的有效性-这是以前方法一直难以实现的挑战,使其在实际场景中具有高度适用性。我们的新方法通过为个性化美学评估提供可扩展的解决方案并为未来研究建立高标准,显著推进了该领域。