每日精选AI研究论文及翻译
大型语言和视觉模型(LLVMs)的快速发展是由视觉指导调整的进展推动的。最近,开源LLVMs已经策划了高质量的视觉指导调整数据集,并利用了额外的视觉编码器或多个计算机视觉模型,以缩小与功能强大的闭源LLVMs之间的性能差距。这些进展归因于对多样化能力所需的多方面信息,包括基本图像理解、关于常识和非物体概念的现实世界知识(例如图表、图表、符号、标志和数学问题),以及解决复杂问题的逐步步骤。借鉴多方面信息,我们提出了一种新的高效LLVM,基于Mamba的理性遍历(Meteor),利用多方面的理性来增强理解和回答能力。为了嵌入包含丰富信息的长理性,我们采用了能够以线性时间复杂度处理序列数据的Mamba架构。我们引入了一种促进理性高效嵌入的理性遍历新概念。随后,通过这些步骤,Meteor在多个需要多样化能力的评估基准上实现了视觉语言性能的显着改进,而无需扩大模型规模或使用额外的视觉编码器和计算机视觉模型。
高分辨率大型多模态模型(LMMs)面临着过多的视觉标记和二次视觉复杂性的挑战。当前的高分辨率LMMs解决了二次复杂性问题,但仍然生成过多的视觉标记。然而,视觉标记中的冗余是主要问题,因为它导致了更多的计算量。为了缓解这一问题,我们提出了ConvLLaVA,它采用ConvNeXt作为LMM的视觉编码器,用以取代视觉Transformer(ViT)。ConvLLaVA将高分辨率图像压缩为信息丰富的视觉特征,有效地防止了生成过多的视觉标记。为了增强ConvLLaVA的功能,我们提出了两个关键优化。由于低分辨率的预训练ConvNeXt在直接应用于高分辨率时表现不佳,我们对其进行了更新以弥合差距。此外,由于ConvNeXt的原始压缩比对于更高分辨率的输入来说是不足够的,我们训练了一个连续阶段来进一步压缩视觉标记,从而减少冗余。这些优化使ConvLLaVA能够支持1536x1536分辨率的输入,仅生成576个视觉标记,能够处理任意宽高比的图像。实验结果表明,我们的方法在主流基准测试中达到了与最先进模型竞争的性能。ConvLLaVA模型系列可在https://github.com/alibaba/conv-llava 公开获取。
我们研究transformers是否能够学会隐式推理参数化知识,这是即使是最有能力的语言模型也难以掌握的技能。专注于两种代表性的推理类型,即组合和比较,我们一贯发现transformers可以学会隐式推理,但只有通过深入训练远超过过拟合的grokking才能实现。推理类型的泛化水平也因类型而异:当面对超出分布范围的示例时,transformers在组合方面未能系统地泛化,但在比较方面取得成功。我们在整个训练过程中深入研究模型内部,进行分析实验揭示:1)grokking背后的机制,例如泛化电路的形成及其与泛化和记忆电路相对效率的关系,以及2)系统性与泛化电路配置之间的联系。我们的发现指导数据和训练设置,以更好地诱导隐式推理,并提出了改进transformer架构的潜在方法,例如鼓励跨层知识共享。此外,我们证明了对于一个具有大搜索空间的具有挑战性的推理任务,基于非参数化记忆的GPT-4-Turbo和Gemini-1.5-Pro无论采用何种提示风格或检索增强,都表现糟糕,而一个完全grokked的transformer可以实现接近完美的准确性,展示了参数化记忆在复杂推理中的强大能力。
本技术报告介绍了Aya 23,这是一系列多语言语言模型。Aya 23基于最近发布的Aya模型(Ustun等,2024年),重点是将高性能的预训练模型与最近发布的Aya集合(Singh等,2024年)配对。其结果是一个功能强大的多语言大型语言模型,覆盖23种语言,将最先进的语言建模能力扩展到全球约一半的人口。Aya模型覆盖了101种语言,而Aya 23是一项深度与广度的实验,探索在预训练期间为少数语言分配更多容量的影响。Aya 23在其覆盖的语言上表现优于先前的大规模多语言模型,如Aya 101,以及广泛使用的模型,如Gemma、Mistral和Mixtral,在广泛的区分性和生成性任务上。我们发布了8B和35B模型的开放权重,作为我们持续承诺扩大多语言进展获取的一部分。
由于其大规模,LLM的预训练在计算上是昂贵的。 模型增长作为一种有前途的方法,通过利用较小的模型来加速更大模型的训练。然而,这些模型增长方法在高效的LLM预训练中的可行性尚未得到充分探讨。本研究确定了三个关键障碍:(O1)缺乏全面评估,(O2)未经测试的可扩展性,以及(O3)缺乏经验指南。为了解决O1,我们将现有方法总结为四个基本增长操作符,并在标准化的LLM预训练环境中对它们进行系统评估。我们的研究结果显示,一种称为G_{stack}的深度堆叠操作符,在训练中表现出显著的加速效果,导致损失减少,并在八个标准NLP基准测试中相对于强基线表现出改善的整体性能。受这些有希望的结果激励,我们进行了大量实验,深入研究G_{stack}以解决O2和O3。对于O2(未经测试的可扩展性),我们的研究表明G_{stack}是可扩展的,并且在经过增长和使用750B令牌预训练LLM后,始终表现良好,例如,与使用300B令牌传统训练的7B模型相比,我们的G_{stack}模型在194B令牌的情况下收敛到相同的损失,实现了54.6\%的加速。我们进一步通过制定指导原则来解决O3(缺乏经验指南),以确定G_{stack}的增长时机和增长因子,使其在一般的LLM预训练中变得实用。我们还对G_{stack}进行了深入讨论和全面的消融研究。我们的代码和预训练模型可在https://llm-stacking.github.io/获取。
现有的学习率调度,不需要指定优化停止步骤T,远不及依赖于T的学习率调度。我们提出了一种方法,通过完全避免使用调度,避免了对这个停止时间的需求,同时在一系列问题上展现出与调度相比的最先进性能,这些问题从凸问题到大规模深度学习问题不等。我们的无调度方法在标准带动量优化器上没有额外的超参数。我们的方法是我们开发的一个新理论的直接结果,该理论统一了调度和迭代平均。我们的方法的开源实现可在以下链接找到(https://github.com/facebookresearch/schedule_free)。
我们介绍了AutoCoder,这是第一个超越GPT-4 Turbo(2024年4月)和GPT-4o在Human Eval基准测试pass@1上的大型语言模型(90.9%对90.2%)。此外,与GPT-4 Turbo和GPT-4o相比,AutoCoder提供了更多功能的代码解释器。它的代码解释器可以安装外部包,而不仅限于内置包。AutoCoder的训练数据是由结合了代理交互和外部代码执行验证的系统创建的多轮对话数据集,我们将这种方法称为AIEV-Instruct(指令调整与代理交互和执行验证)。与先前的大规模代码数据集生成方法相比,AIEV-Instruct减少了对专有大型模型的依赖,并提供了经过验证的执行代码数据集。代码和演示视频可在https://github.com/bin123apple/AutoCoder找到。
我们提出了一种新颖的生成式3D建模系统,命名为CraftsMan,能够生成具有高保真度、高度多样形状、规则网格拓扑和详细表面的3D几何体,并且显著地允许以交互方式对几何体进行细化。尽管在3D生成方面取得了显著进展,但现有方法仍然面临着优化过程冗长、网格拓扑不规则、表面嘈杂以及难以适应用户编辑等问题,从而阻碍了它们在3D建模软件中的广泛应用和实施。我们的工作受到工匠的启发,通常先勾勒出作品的整体轮廓,然后再详细阐述表面细节。具体而言,我们采用了一种3D本地扩散模型,该模型在从潜在集合式3D表示学习的潜在空间上运行,以在几秒钟内生成具有规则网格拓扑的粗略几何体。特别是,该过程以文本提示或参考图像作为输入,并利用强大的多视角(MV)扩散模型生成粗略几何体的多个视图,这些视图被馈送到我们的MV条件的3D扩散模型中,用于生成3D几何体,显著提高了鲁棒性和泛化能力。随后,使用基于法线的几何体细化器显著增强表面细节。这种细化可以自动进行,也可以与用户提供的编辑交互进行。大量实验证明,与现有方法相比,我们的方法在生成优质3D资产方面表现出高效性。主页:https://craftsman3d.github.io/,代码:https://github.com/wyysf-98/CraftsMan
自监督特征是现代机器学习系统的基石。它们通常在数据集上进行预训练,这些数据集的构建和整理通常需要大量人力。这种手动过程存在一些类似于监督学习中遇到的限制,例如,众包选择数据成本高昂且耗时,阻碍了数据集规模的扩展。在这项工作中,我们考虑了自监督预训练高质量数据集的自动整理问题。我们认为这些数据集应该是大型、多样化和平衡的,并提出了一种基于聚类的方法来构建满足所有这些标准的数据集。我们的方法涉及在大型多样化数据存储库上连续和分层应用k均值,以获得在数据概念之间均匀分布的簇,然后从这些簇中进行分层平衡抽样步骤。对包括基于网络的图像、卫星图像和文本在内的三个不同数据领域进行了大量实验,结果表明,在我们自动整理的数据集上训练的特征优于在未整理数据上训练的特征,同时与在手动整理数据上训练的特征相当或更好。
世界模型赋予基于模型的智能体在虚拟环境中进行互动探索、推理和规划,以进行真实世界决策。然而,对互动性的高需求在利用最新视频生成模型开发大规模世界模型方面提出了挑战。本研究引入了交互式VideoGPT(iVideoGPT),这是一个可扩展的自回归Transformer框架,将多模态信号——视觉观察、动作和奖励——整合到一个令牌序列中,通过下一个令牌预测促进智能体的互动体验。iVideoGPT采用一种新颖的压缩式令牌化技术,有效离散化高维视觉观察。利用其可扩展的架构,我们能够在数百万人类和机器人操作轨迹上对iVideoGPT进行预训练,建立一个多才多艺的基础,可适应于作为各种下游任务的互动式世界模型。这些任务包括动作条件视频预测、视觉规划和基于模型的强化学习,iVideoGPT在这些任务中表现出与最先进方法相媲美的性能。我们的工作推动了交互式通用世界模型的发展,弥合了生成式视频模型与实际基于模型的强化学习应用之间的差距。
语言模型(LMs)长期以来一直被用于改善自动语音识别(ASR)系统的结果,但它们并不知晓ASR系统所犯的错误。错误校正模型旨在修复ASR错误,然而,由于缺乏监督训练数据,它们在传统LMs上显示出的改进很少。在本文中,我们提出了去噪语言模型(DLM),这是一个经过大量合成数据训练的缩放错误校正模型,显著超越先前的尝试,同时实现了新的最先进的ASR性能。我们使用文本转语音(TTS)系统合成音频,将其输入ASR系统以生成带噪假设,然后将其与原始文本配对以训练DLM。DLM具有几个关键要素:(i)增强模型和数据;(ii)使用多说话人TTS系统;(iii)结合多种噪声增强策略;以及(iv)新的解码技术。通过Transformer-CTC ASR,DLM在Librispeech的test-clean上实现了1.5%的词错误率(WER),在test-other上实现了3.3%的WER,据我们所知,这些是在不使用外部音频数据的情况下报告的最佳数字,甚至与使用外部音频数据的自监督方法相匹敌。此外,单个DLM适用于不同的ASR,并大大超越基于传统LM的波束搜索重评分的性能。这些结果表明,经过适当调查的错误校正模型有潜力取代传统的LMs,在ASR系统中实现新的准确度水平。
大型语言模型展现出卓越的泛化能力,主要归因于利用多样化的数据。然而,传统做法在整合这些多样化数据方面往往依赖启发式方案,缺乏理论指导。本研究通过研究基于低成本代理的数据混合策略,旨在简化数据整理以提升训练效率来解决这些局限性。具体而言,我们提出了一种统一的缩放定律,称为BiMix,准确地建模了数据数量和混合比例的双变量缩放行为。我们进行系统实验,并提供了BiMix预测能力和基本原理的实证证据。值得注意的是,我们的研究结果表明,基于熵驱动的无需训练的数据混合方法可以实现与更消耗资源的方法相当甚至更好的性能。我们希望我们的定量洞察力可以为成本效益的语言建模中进一步审慎的研究和发展提供启示。
高动态范围(HDR)新视角合成(NVS)旨在利用HDR成像技术从新视角创建逼真图像。渲染的HDR图像捕捉比普通低动态范围(LDR)图像包含更多场景细节的更广泛亮度范围。现有的HDR NVS方法主要基于NeRF。它们存在训练时间长和推理速度慢的问题。本文提出了一个新框架,高动态范围高斯飞溅(HDR-GS),可以高效地渲染新的HDR视角并根据用户输入的曝光时间重建LDR图像。具体来说,我们设计了一个双动态范围(DDR)高斯点云模型,使用球谐函数拟合HDR颜色,并采用基于MLP的色调映射器来渲染LDR颜色。然后,HDR和LDR颜色被输入两个并行可微光栅化(PDR)过程以重建HDR和LDR视角。为了为基于3D高斯飞溅的HDR NVS方法的研究建立数据基础,我们重新校准摄像机参数并计算高斯点云的初始位置。实验证明,我们的HDR-GS在LDR和HDR NVS上分别比最先进的基于NeRF的方法提高了3.84和1.91 dB,同时享有1000倍的推理速度,并且只需要6.3%的训练时间。