每日精选AI研究论文及翻译
我们提出了SlowFast-LLaVA(简称SF-LLaVA),这是一个无需训练的视频大型语言模型(LLM),能够同时捕获详细的空间语义和长距离的时间上下文,而不会超出常用LLM的令牌预算。这是通过使用两流SlowFast设计的视频LLM输入来有效地聚合来自采样视频帧的特征实现的。具体而言,慢路径以低帧率提取特征,同时尽可能保留许多空间细节(例如,使用24x24令牌),而快路径以较高帧率运行,但使用更大的空间池化步幅(例如,下采样6倍)以专注于运动线索。因此,这种设计使我们能够充分捕获对理解视频中的细节有益的空间和时间特征。实验结果表明,SF-LLaVA在各种视频任务上优于现有的无需训练方法。在某些基准测试中,它的性能与在视频数据集上微调的最先进视频LLM相当,甚至更好。
目前,针对不同部署规模和大小的大型语言模型(LLMs)通常是通过从头开始训练每个变体来生产的;这需要极大的计算资源。本文研究了对现有LLM进行修剪,然后用原始训练数据的一小部分(<3%)重新训练是否可以作为重复完整重新训练的合适替代方案。为此,我们开发了一套实用且有效的LLM压缩最佳实践,结合了深度、宽度、注意力和MLP修剪以及基于知识蒸馏的重新训练;我们通过对每个轴的修剪策略、轴的组合方法、蒸馏策略以及搜索技术的详细实证探索得出了这些最佳实践,以找到最佳压缩架构。我们使用这一指南将Nemotron-4系列的LLM压缩了2-4倍,并将它们的性能与各种语言建模任务中大小相似的模型进行了比较。使用我们的方法从已经预训练的15B模型派生8B和4B模型,每个模型所需的训练标记数量比从头开始训练少多达40倍;这导致训练完整模型系列(15B、8B和4B)的计算成本节约了1.8倍。Minitron模型相比从头开始训练,MMLU分数提高了多达16%,性能与其他社区模型(如Mistral 7B、Gemma 7B和Llama-3 8B)相当,并且优于文献中的最先进的压缩技术。我们已在Huggingface上开源了Minitron模型权重,并提供了相关的补充材料,包括在GitHub上提供的示例代码。
目前最先进的基础模型规模巨大,这限制了科学家们的接触,因为在大型模型上进行定制实验需要昂贵的硬件和复杂的工程,这对大多数研究人员来说是不切实际的。为了缓解这些问题,我们引入了NNsight,这是一个开源的Python软件包,具有简单灵活的API,可以通过构建计算图在任何PyTorch模型上表达干预。我们还推出了NDIF,这是一个协作研究平台,通过NNsight API为研究人员提供访问基础规模LLMs的途径。代码、文档和教程可在https://www.nnsight.net 上找到。
理解大型语言模型(LLMs)中的知识机制对于推动可信任人工通用智能(AGI)的发展至关重要。本文从一个新颖的分类法中审视知识机制分析,包括知识利用和演化。知识利用深入探讨记忆、理解和应用、创造的机制。知识演化关注个体和群体LLMs内知识的动态进展。此外,我们讨论LLMs学到了什么知识,参数化知识脆弱的原因,以及可能具有挑战性的潜在黑暗知识(假设)。我们希望这项工作能帮助理解LLMs中的知识,并为未来研究提供启示。
大型多模态模型(LMMs)在各个领域具有巨大潜力,从日常任务的个人辅助到医学诊断等复杂应用。然而,它们在视频游戏领域的能力存在一些局限,比如在场景理解、幻觉和对视频游戏内容的不准确描述方面存在挑战,尤其是在开源模型中。本文描述了VideoGameBunny的开发,这是一种基于Bunny的LLaVA风格模型,专门用于理解来自视频游戏的图像。我们发布了中间检查点、训练日志以及一个包含来自413个标题的185,259个视频游戏图像的广泛数据集,以及包括图像标题、问答对和136,974个图像的16个元素的JSON表示的389,565个图像指令对。我们的实验表明,我们高质量的与游戏相关的数据有潜力使一个相对较小的模型胜过参数数量超过4倍的最先进模型LLaVa-1.6-34b。我们的研究为未来在视频游戏理解方面的研究铺平了道路,例如玩游戏、评论和调试等任务。代码和数据可在https://videogamebunny.github.io/获取。
最近,多智能体强化学习(MARL)在解决各种环境中具有挑战性的合作和竞争性多智能体问题方面取得了显著进展,这些环境通常包含少量智能体且具有完全可观测性。此外,一系列关键的与机器人相关的任务,如多机器人导航和避障,通常采用传统的非可学习方法(例如,启发式搜索),目前建议采用基于学习或混合方法来解决。然而,在这一领域中,由于缺乏支持学习和评估的统一框架,要进行对传统方法、基于学习的方法和混合方法的公平比较是困难的,甚至可以说是不可能的。为此,我们引入了POGEMA,一个包括快速学习环境、问题实例生成器、预定义实例集合、可视化工具包和允许自动评估的基准工具的综合工具集。我们介绍并详细说明了一个评估协议,定义了一系列基于主要评估指标(例如成功率和路径长度)计算的与领域相关的指标,从而实现了公平的多方面比较。我们展示了涉及各种最先进的MARL、基于搜索的方法和混合方法的比较结果。
大型多模态模型(LMMs)正在处理越来越长和更丰富的输入。尽管取得了进展,但很少有公开的基准可用于衡量这种发展。为弥补这一差距,我们引入了LongVideoBench,这是一个问答基准,具有长达一小时的视频-语言交错输入。我们的基准包括3,763个不同长度的网络收集视频及其字幕,涵盖多样化主题,旨在全面评估长期多模态理解的LMMs。为实现这一目标,我们将主要挑战解释为准确检索和推理长输入中的详细多模态信息。因此,我们提出了一项新颖的视频问答任务,称为指代推理。具体而言,在问题的一部分中,它包含一个引用查询,引用相关视频上下文,称为被引用上下文。然后,模型需要推理被引用上下文中相关视频细节。遵循指代推理的范例,我们精心策划了6,678个人工注释的17个细粒度类别的多项选择问题,建立了一个最全面的长格式视频理解基准之一。评估表明,即使对于最先进的专有模型(例如GPT-4o、Gemini-1.5-Pro、GPT-4-Turbo),LongVideoBench也提出了重大挑战,而它们的开源对应模型表现出更大的性能差距。此外,我们的结果表明,模型在基准测试中的性能仅在能够处理更多帧时才会提高,将LongVideoBench定位为评估未来长上下文LMMs的有价值基准。
人类反馈强化学习(RLHF)是当今最先进的大型语言模型中质量和安全性的关键驱动因素。然而,在推断时一个令人惊讶的简单而强大的策略是Best-of-N抽样,它从N个候选生成中选择最佳生成。在本文中,我们提出了Best-of-N蒸馏(BOND),这是一种新颖的RLHF算法,旨在模拟Best-of-N,但在推断时避免其显著的计算开销。具体而言,BOND是一种分布匹配算法,强制使策略生成的分布接近Best-of-N分布。我们使用Jeffreys散度(前向和后向KL的线性组合)来平衡模式覆盖和模式寻找行为,并推导出一个利用移动锚点提高效率的迭代公式。通过在提取式摘要和Gemma模型上进行实验,我们展示了我们方法的有效性和几种设计选择。将Gemma策略与BOND对齐优于其他RLHF算法,在多个基准测试上改善了结果。
尽管神经辐射场(NeRFs)展现出卓越的质量,但其漫长的训练时间仍然是一个限制因素。具有泛化能力且基于多视图结构(MVS)的NeRFs,虽然能够减少训练时间,但往往会在质量上产生折衷。本文提出了一种名为BoostMVSNeRFs的新方法,用于增强大规模场景中基于MVS的NeRFs的渲染质量。我们首先确定了基于MVS的NeRF方法的局限性,如受限的视口覆盖范围和由有限输入视图导致的伪影。然后,我们通过提出一种新方法来解决这些限制,该方法在体素渲染过程中选择并组合多个代价体积。我们的方法不需要训练,并且可以以前馈方式适应任何基于MVS的NeRF方法,以提高渲染质量。此外,我们的方法还可以进行端到端的训练,允许在特定场景上进行微调。我们通过在大规模数据集上进行实验展示了我们方法的有效性,显示了在大规模场景和无边界户外场景中显著的渲染质量改进。我们在https://su-terry.github.io/BoostMVSNeRFs/发布了BoostMVSNeRFs的源代码。
扩散模型在去噪过程中纠缠了内容和风格生成,直接应用于样式化任务时会导致内容修改不受欢迎。现有方法难以有效控制扩散模型以满足样式化的审美要求。本文介绍了一种名为Artist的无需训练的方法,用于审美地控制预训练扩散模型的内容和风格生成,以实现文本驱动的样式化。我们的关键见解是将内容和风格的去噪分开为两个独立的扩散过程,同时在它们之间共享信息。我们提出了简单而有效的内容和风格控制方法,抑制了与风格无关的内容生成,从而产生和谐的样式化结果。大量实验证明我们的方法在实现审美级别的样式化要求方面表现出色,保留了内容图像中的复杂细节,并与样式提示很好地契合。此外,我们展示了从各个角度高度可控的样式化强度。代码将被发布,项目主页:https://DiffusionArtist.github.io
尽管流匹配(Flow Matching)和扩散模型已经成为连续变量(如图像和视频)的强大生成范式,但它们在高维离散数据(如语言)上的应用仍然有限。在这项工作中,我们提出了离散流匹配(Discrete Flow Matching),这是一种专门设计用于生成离散数据的新颖离散流范式。离散流匹配提供了几个关键贡献:(i) 它适用于一般的概率路径族,插值源分布和目标分布之间的路径;(ii) 它允许使用学习后验概率(如概率去噪器(x-预测)和噪声预测(epsilon-预测))从这些概率路径中采样的通用公式;(iii) 在实践中,专注于使用不同调度程序定义的特定概率路径,与以前的离散扩散和流模型相比,显著改善了生成困惑度;(iv) 通过将离散流匹配模型扩展到17亿参数,我们在HumanEval上达到了6.7% Pass@1和13.4% Pass@10,在1-shot MBPP编码基准上达到了6.7% Pass@1和20.6% Pass@10。我们的方法能够以非自回归方式生成高质量的离散数据,显著缩小了自回归模型和离散流模型之间的差距。
在各个领域,包括虚拟现实、游戏和电影行业,3D场景生成需求很高。由于文本到图像扩散模型具有强大的生成能力,能提供可靠的先验知识,仅使用文本提示生成3D场景变得可行,从而显著推动了基于文本驱动的3D场景生成研究。为了从2D扩散模型中获得多视角监督,目前的方法通常利用扩散模型生成初始局部图像,然后通过迭代使用扩散模型对局部图像进行外延,逐渐生成场景。然而,这些基于外延的方法往往会产生全局不一致的场景生成结果,且完整度不高,限制了它们的广泛应用。为了解决这些问题,我们引入了HoloDreamer,这是一个框架,首先生成高清全景图作为完整3D场景的初始化,然后利用3D高斯飞溅(3D-GS)快速重建3D场景,从而促进了视角一致且完全封闭的3D场景的创建。具体来说,我们提出了风格化等距全景生成,这是一个流程,结合多个扩散模型,能够从复杂文本提示中实现风格化和详细的等距全景生成。随后,引入了增强型两阶段全景重建,通过对3D-GS进行两阶段优化,对缺失区域进行修补,增强场景的完整性。全面的实验表明,我们的方法在生成完全封闭场景时,在整体视觉一致性和和谐性、重建质量和渲染稳健性方面优于先前的工作。
通用人工智能(AI)系统建立在大量的公共网络数据之上,这些数据被组织成语料库,如C4、RefinedWeb和Dolma。据我们所知,我们进行了首次大规模、长期的审计,审查了支撑AI训练语料库的网络域的同意协议。我们对14,000个网络域进行的审计提供了对可爬取网络数据的广泛视角,以及随时间变化的同意偏好。我们观察到一系列旨在限制使用的AI特定条款,对AI开发者的限制存在显著差异,以及网站在其服务条款和robots.txt中表达意图之间的普遍不一致。我们将这些问题诊断为无效的网络协议的症状,这些协议并未设计用于应对互联网被广泛用于AI的情况。我们的长期分析显示,在一年之内(2023-2024年),来自网络来源的数据限制迅速增加,导致C4中约5%以上的所有标记,或C4中维护最活跃的关键来源的28%以上,完全限制使用。对于服务条款的爬取限制,现在有整个C4的45%被限制。如果这些限制得到尊重或执行,将迅速影响通用人工智能系统的多样性、新鲜度和扩展规律。我们希望阐明数据同意方面出现的新兴危机,这将关闭大部分开放网络,不仅限于商业AI,还包括非商业AI和学术用途。
由于强大的生成能力,扩散模型在图像动画方面取得了巨大进展。然而,要在动画视频叙事中保持与输入静态图像的详细信息(例如风格、背景和对象)的时空一致性,并确保受文本提示指导的动画视频流畅性仍然具有挑战性。本文介绍了Cinemo,这是一种新颖的图像动画方法,旨在实现更好的运动可控性,以及更强的时空一致性和平滑性。总体上,我们提出了Cinemo在训练和推断阶段实现目标的三种有效策略。在训练阶段,Cinemo专注于学习运动残差的分布,而不是通过运动扩散模型直接预测随后的运动。此外,提出了一种基于结构相似性指数的策略,使Cinemo能够更好地控制运动强度。在推断阶段,引入了基于离散余弦变换的噪声细化技术,以减轻突然的运动变化。这三种策略使Cinemo能够产生高度一致、平滑和可控的运动结果。与先前的方法相比,Cinemo提供了更简单和更精确的用户可控性。针对几种最先进的方法进行了大量实验,包括商业工具和研究方法,跨多个指标展示了我们提出的方法的有效性和优越性。
基于奖励的微调对于将语言策略与预期行为(例如创造力和安全性)保持一致至关重要。这里的一个关键挑战是开发可控的语言模型,以灵活高效地权衡多个(相互冲突的)目标。本文提出了条件语言策略(CLP),这是一个用于在多个目标上微调语言模型的通用框架。借鉴多任务训练和参数高效微调的技术,CLP能够学习到在推理时有效权衡冲突目标的可控模型。值得注意的是,这不需要训练或维护多个模型以实现不同目标之间的权衡。通过大量实验和消融研究,我们展示了CLP框架学习到的可控模型胜过并帕累托支配了目前多目标微调的最新方法。
基于LLM的强大能力,近期许多多模态大型语言模型(MLLMs)在多个基准测试中取得了显著的视觉-语言任务性能。然而,大多数现有的MLLMs和基准测试主要关注单图像输入场景,对MLLMs处理现实多图像时的性能尚未充分探讨。虽然一些基准测试考虑了多图像情况,但它们的评估维度和样本非常有限。因此,在本文中,我们提出了一个新的基准测试MIBench,全面评估MLLMs在多图像场景中的细粒度能力。具体而言,MIBench将多图像能力分为三种情景:多图像指导(MII)、多模态知识获取(MKS)和多模态上下文学习(MIC),并构建了13个任务,共计13K个带注释样本。在数据构建过程中,对于MII和MKS,我们从手动注释中提取正确选项,并创建具有挑战性的干扰项,以获得多项选择题。对于MIC,为了进行深入评估,我们设置了四个子任务,并将原始数据集转换为上下文学习格式。我们在提出的MIBench上评估了几种开源MLLMs和闭源MLLMs。结果显示,尽管当前模型在单图像任务上表现出色,但面对多图像输入时存在明显缺陷,如细粒度感知混淆、有限的多图像推理和不稳定的上下文学习。MIBench中的带注释数据可在https://huggingface.co/datasets/StarBottle/MIBench获取。
基于语言模型(LMs)构建的语言代理是可以与复杂环境(如开放网络)进行交互的系统。在这项工作中,我们研究这种代理是否能够在网络上执行现实且耗时的任务,例如监控房地产市场或查找相关的附近企业。我们引入了AssistantBench,一个包含214个现实任务的具有挑战性的新基准,可以自动评估,涵盖不同场景和领域。我们发现AssistantBench暴露了当前系统的局限性,包括语言模型和检索增强语言模型,因为没有模型达到超过25分的准确度。尽管闭卷LMs表现良好,但由于倾向于产生虚构事实,它们的精度较低。最先进的网络代理得分接近零。此外,我们引入了SeePlanAct(SPA),这是一个新的网络代理,明显优于先前的代理,而SPA和闭卷模型的集成达到了最佳整体性能。此外,我们分析了当前系统的失败,并强调网络导航仍然是一个重大挑战。
现有的文本转音乐模型能够生成质量高且多样化的音频。然而,仅凭文本提示无法精确控制生成音乐的和弦和节奏等时间音乐特征。为了解决这一挑战,我们引入了MusiConGen,这是一种基于Transformer的时序条件文本转音乐模型,它在预训练的MusicGen框架基础上进行了构建。我们的创新在于一种针对消费级GPU量身定制的高效微调机制,它集成了自动提取的节奏和和弦作为条件信号。在推断过程中,条件可以是从参考音频信号中提取的音乐特征,也可以是用户定义的符号和弦序列、BPM和文本提示。我们对两个数据集进行了性能评估,一个来自提取的特征,另一个来自用户创建的输入,结果表明MusiConGen能够生成与指定条件良好对齐的逼真伴奏音乐。我们已开源代码和模型检查点,并在网上提供音频示例,网址为https://musicongen.github.io/musicongen_demo/。
我们介绍了 LocoTrack,这是一个专为跟踪视频序列中任意点(TAP)而设计的高精度高效的模型。先前在这一任务中的方法通常依赖于局部2D相关性图,以建立查询图像中的点与目标图像中局部区域之间的对应关系,然而这种方法常常在处理均匀区域或重复特征时遇到困难,导致匹配的模糊性。LocoTrack通过一种新颖的方法克服了这一挑战,该方法利用区域间的全对应关系,即局部4D相关性,建立精确的对应关系,双向对应和匹配平滑显著增强了对模糊性的鲁棒性。我们还结合了一个轻量级相关性编码器以增强计算效率,以及一个紧凑的Transformer架构来整合长期时间信息。LocoTrack在所有TAP-Vid基准测试中实现了无与伦比的准确性,并且运行速度几乎比当前最先进技术快了近6倍。
布局生成是智能设计的基础任务,需要整合视觉美学和内容传递的和谐表达。然而,现有方法在生成精确且视觉上吸引人的布局方面仍面临挑战,包括布局之间的阻塞、重叠或空间错位等问题,这些问题与图形布局的空间结构密切相关。我们发现这些方法过分关注内容信息,缺乏对布局空间结构的约束,导致学习内容感知和图形感知特征失衡。为了解决这个问题,我们提出了基于Transformer扩散模型的内容和图形平衡布局生成(CGB-DM)。具体而言,我们首先设计了一个调节器,平衡了预测的内容和图形权重,克服了更多关注画布上内容的倾向。其次,我们引入了显著性边界框的图形约束,进一步增强了布局表示和图像之间几何特征的对齐。此外,我们采用了Transformer为骨干的扩散模型,其强大的生成能力确保了布局生成的质量。大量实验结果表明,我们的方法在定量和定性评估中均取得了最先进的性能。我们的模型框架还可以扩展到其他图形设计领域。
热成像具有各种应用,从农业监测到建筑检查,再到在低光、雾和雨等恶劣条件下成像。然而,由于长波红外(LWIR)图像中分辨率相对较低且特征有限,重建3D热场景存在一些挑战。为了克服这些挑战,我们提出了一个统一的框架,用于从一组LWIR和RGB图像中重建场景,利用多光谱辐射场来表示可见光和红外相机共同观察的场景,从而利用两个光谱间的信息。我们通过使用简单的校准目标,对RGB和红外相机进行彼此校准作为预处理步骤。我们在从手持热成像相机拍摄的真实RGB和LWIR照片集上展示了我们的方法,展示了我们的方法在可见光和红外光谱中场景表示方面的有效性。我们展示了我们的方法能够进行热超分辨率,并在视觉上消除障碍物,揭示在RGB或热通道中被遮挡的物体。请参阅https://yvette256.github.io/thermalnerf 查看视频结果以及我们的代码和数据集发布。
我们引入了时间残差雅可比矩阵作为一种新颖的表示形式,以实现基于数据驱动的运动转移。我们的方法不假设访问任何绑定或中间形状关键帧,能够产生几何和时间上一致的运动,并可用于转移长时间序列的运动。我们方法的核心是两个耦合的神经网络,分别预测局部的几何和时间变化,随后将其空间和时间集成,以生成最终的动画网格。这两个网络是联合训练的,相互补充产生空间和时间信号,并直接使用三维位置信息进行监督。在推断过程中,在没有关键帧的情况下,我们的方法实质上解决了一种运动外推问题。我们在各种网格上(合成和扫描形状)测试了我们的设置,以展示其在未见身体形状上生成逼真和自然动画方面优于SoTA替代方案。补充视频和代码可在 https://temporaljacobians.github.io/ 获取。
本文介绍了GET-Zero,这是一种模型架构和训练程序,用于学习一种能够立即适应新硬件变化而无需重新训练的感知感知控制策略。为此,我们提出了图感知变换器(GET),这是一种变换器模型,利用感知图连接作为注意机制中学习到的结构偏差。我们使用行为克隆将感知特定专家策略的演示数据提炼到一个能够根据机器人的硬件配置做出控制决策的感知感知GET模型中。我们对一个灵巧的手中物体旋转任务进行了案例研究,使用一个四指机器人手的不同配置,包括移除关节和延长链节长度。使用GET模型以及自建模损失使得GET-Zero能够零次通用到感知结构和链节长度的未见变化,相比基线方法提高了20%。所有代码和定性视频结果均可在https://get-zero-paper.github.io找到。
最近大型多模态模型(LMMs)的进展在单图像视觉问答领域取得了显著进展。然而,这些模型在处理涉及大量图像的查询时面临重大挑战,类似于搜索大型相册、在互联网上查找特定信息或通过卫星图像监测环境变化等真实场景。本文探讨了多图像视觉问答(MIQA)任务:给定一组大量图像和自然语言查询,任务是生成相关且有根据的回答。我们提出了一个新的公共基准,名为“视觉干草堆(VHs)”,专门设计用于评估LMMs在视觉检索和推理上的能力,我们进行了全面评估,表明即使是强大的闭源模型也面临重大困难。为了解决这些缺陷,我们引入了MIRAGE(多图像检索增强生成),这是一个专为LMMs量身定制的检索/问答框架,能有效应对MIQA的挑战,并在效率和准确性方面相比基线方法有显著提升。我们的评估显示,MIRAGE在VHs基准测试中超越了闭源GPT-4o模型高达11%,并在效率上比以文本为重点的多阶段方法提供高达3.4倍的改进。