每日精选AI研究论文及翻译
在计算机视觉中,文档内容提取对于满足大型语言模型(LLMs)和检索增强生成(RAG)技术对高质量数据的需求至关重要。然而,当前的文档解析方法在多样性和全面评估方面存在显著局限性。为了解决这些挑战,我们引入了OmniDocBench,这是一个新颖的多源基准,旨在推动自动化文档内容提取的发展。OmniDocBench包括一个精心策划和注释的高质量评估数据集,包括学术论文、教科书、幻灯片等九种不同类型的文档。我们的基准提供了一个灵活而全面的评估框架,具有19个布局类别标签和14个属性标签,可实现对整个数据集、单独模块或特定数据类型的多层次评估。利用OmniDocBench,我们对现有的模块化流程和多模式端到端方法进行了详尽的比较分析,突显了它们在处理文档多样性方面的局限性,并确保了公平评估。OmniDocBench为文档内容提取领域建立了一个强大、多样化且公平的评估标准,为未来的进展提供了重要见解,并促进了文档解析技术的发展。代码和数据集可在https://github.com/opendatalab/OmniDocBench获取。
大型语言模型(LLMs)被限制在“语言空间”中进行推理,在这里它们通常使用一种“思维链”(CoT)来表达解决复杂推理问题的过程。然而,我们认为语言空间并非始终是推理的最佳选择。例如,大多数词元主要用于文本连贯性而非推理所必需,而一些关键词元需要复杂规划并对LLMs构成巨大挑战。为了探索LLM在无限制潜在空间中进行推理的潜力,而非使用自然语言,我们引入了一种新范式椰子(Chain of Continuous Thought)。我们利用LLM的最后隐藏状态作为推理状态的表示(称为“连续思维”)。我们不将其解码为词元,而是将其直接反馈给LLM作为连续空间中的后续输入嵌入。实验证明,椰子可以有效地增强LLM在几个推理任务上的表现。这种新颖的潜在推理范式导致新兴的高级推理模式:连续思维可以编码多个替代的下一推理步骤,使模型能够执行广度优先搜索(BFS)来解决问题,而非像CoT那样过早地承诺单一确定的路径。在某些需要在规划过程中进行大量回溯的逻辑推理任务中,椰子在推理过程中的思考词元更少,优于CoT。这些发现展示了潜在推理的潜力,并为未来研究提供了宝贵的见解。
由于语言模型在解决数学问题时经常会出错,因此自动识别推理过程中的错误变得越来越重要,以便进行可扩展的监督。在本文中,我们介绍了ProcessBench,用于衡量识别数学推理中错误步骤的能力。它包含3,400个测试用例,主要集中在竞赛和奥林匹克级别的数学问题上。每个测试用例都包含一个逐步解决方案,其中错误位置由人类专家标注。模型需要识别包含错误的最早步骤,或者得出所有步骤都正确的结论。我们在ProcessBench上进行了广泛评估,涉及两种类型的模型:过程奖励模型(PRMs)和评论模型,对于后者,我们提示通用语言模型逐步评论每个解决方案。我们得出两个主要观察结果:(1)现有的PRMs通常无法推广到超出GSM8K和MATH的更具挑战性的数学问题。它们在表现上不如评论模型(即提示的通用语言模型)和我们自己训练的PRM,在PRM800K数据集上直接微调。 (2)最佳的开源模型QwQ-32B-Preview,尽管仍落后于专门用于推理的o1-mini,但已经展示出与专有模型GPT-4o相竞争的评论能力。我们希望ProcessBench能促进未来推理过程评估研究,为语言模型的可扩展监督铺平道路。
将记忆融入智能体对于强化学习(RL)领域内众多任务至关重要。特别是,对于需要利用过去信息、适应新环境以及提高样本效率的任务,记忆至关重要。然而,“记忆”一词涵盖了广泛的概念,再加上缺乏统一的验证智能体记忆的方法,导致对智能体记忆能力的错误判断,并阻止与其他增强记忆智能体客观比较。本文旨在通过提供灵感来源于认知科学的智能体记忆类型的实用精确定义,如长期记忆与短期记忆、陈述性记忆与程序性记忆,来简化RL中记忆的概念。利用这些定义,我们对智能体记忆的不同类别进行分类,提出了一个评估RL智能体记忆能力的强大实验方法,并标准化评估。此外,我们通过对不同RL智能体进行实验,以及违反该方法论的后果,从经验上证明了遵循所提方法论在评估不同类型智能体记忆时的重要性。
大规模视觉-语言模型(VLMs)的快速发展在学术基准测试中取得了令人印象深刻的成果,主要是在广泛使用的语言中。然而,目前的VLMs 在处理低资源语言和不同文化背景方面仍存在显著差距,主要是由于缺乏高质量、多样化和经过安全审核的数据。因此,这些模型通常难以理解低资源语言和文化细微差别,而且难以避免毒性。为了解决这些限制,我们引入了 Maya,这是一个开源的多模态多语言模型。我们的贡献有三个方面:1)一个基于 LLaVA 预训练数据集的八种语言的多语言图像-文本预训练数据集;2)对 LLaVA 数据集中毒性的彻底分析,随后创建了跨八种语言的新颖无毒版本;以及3)支持这些语言的多语言图像-文本模型,增强了在视觉-语言任务中的文化和语言理解能力。代码可在 https://github.com/nahidalam/maya 找到。
全球视觉地理定位可以预测图像在地球上的拍摄位置。由于图像在定位精度上存在差异,这项任务固有地涉及相当程度的歧义。然而,现有方法是确定性的,忽视了这一方面。在本文中,我们旨在弥合传统地理定位和现代生成方法之间的差距。我们提出了基于扩散和黎曼流匹配的第一种生成地理定位方法,其中去噪过程直接在地球表面上运行。我们的模型在三个视觉地理定位基准测试中取得了最先进的性能:OpenStreetView-5M、YFCC-100M和iNat21。此外,我们引入了概率视觉地理定位任务,模型预测所有可能位置上的概率分布,而不是单个点。我们为这一任务引入了新的度量标准和基准线,展示了我们基于扩散的方法的优势。代码和模型将会提供。
多模态大型语言模型(MLLMs)通过仅在粗粒度概念注释(例如图像标题)上进行预训练,在视觉-语言任务中表现出色。我们假设整合细粒度概念注释(例如对象标签和对象区域)将进一步提高性能,因为两种数据粒度在概念表示的广度和深度方面互补。我们为MLLMs引入了一个新的数据集,其中包含多模态多粒度概念注释(MMGiC)。在构建MMGiC时,我们探讨了不同数据配方对多模态理解和生成的影响。我们的分析显示,多粒度概念注释在我们的结构化模板和通用MLLM框架下相互整合和互补。我们清楚地探讨并展示了MMGiC帮助MLLMs更好地定位和学习概念的潜力,将视觉和语言在多个粒度上对齐。我们通过研究MMGiC与图像标题数据在12个多模态理解和生成基准上的公平比较和有效协作来进一步验证我们的假设,例如它们的适当组合在POPE和SEED-Bench上相对于仅图像标题数据分别实现了3.95%和2.34%的绝对改进。代码、数据和模型将在https://github.com/LooperXX/MMGiC 上提供。
近年来,人们对在大型语言模型(LLMs)中统一图像理解和生成表现出了极大的兴趣。这种日益增长的兴趣促使我们探索将这种统一扩展到视频领域。核心挑战在于开发一种多才多艺的视频分词器,能够捕捉视频的空间特征和时间动态,以获得LLMs的表示,进而将这些表示进一步解码为逼真的视频片段,实现视频生成。在这项工作中,我们介绍了Divot,一种基于扩散的视频分词器,利用自监督视频表示学习的扩散过程。我们假设,如果一个视频扩散模型能够通过以视频分词器的特征作为条件有效去噪视频片段,那么该分词器已成功捕捉到稳健的空间和时间信息。此外,视频扩散模型本质上充当解词器,从其表示中解码视频。基于Divot分词器,我们通过视频到文本自回归和文本到视频生成,通过用高斯混合模型对Divot特征的连续值分布进行建模,提出了Divot-Vicuna。实验结果表明,我们基于扩散的视频分词器,当与预训练的LLM集成时,在各种视频理解和生成基准测试中取得了竞争性能。经过调整的Divot-Vicuna在视频叙事方面表现出色,生成交错的叙述和相应的视频。
最近的3D生成模型通常依赖于有限规模的3D“金标签”或2D扩散先验用于3D内容创建。然而,由于缺乏可扩展的学习范式,它们的性能受到受限的3D先验的上限约束。在这项工作中,我们提出了See3D,这是一个在大规模互联网视频上训练的视觉条件多视角扩散模型,用于开放世界的3D创建。该模型旨在通过仅从庞大且迅速增长的视频数据中观察视觉内容来获取3D知识 -- 看到它,就能获得它。为了实现这一目标,我们首先通过一个提出的数据筛选流程扩大训练数据,该流程可以自动过滤源视频中的多视角不一致性和不足的观察。这导致了一个高质量、丰富多样、大规模的多视角图像数据集,称为WebVi3D,其中包含来自1600万视频剪辑的3.2亿帧。然而,从没有显式3D几何或摄像机姿态注释的视频中学习通用3D先验是非常困难的,而为Web规模视频注释姿态的成本是高得禁止的。为了消除对姿态条件的需求,我们引入了一种创新的视觉条件 - 通过向屏蔽视频数据添加时间相关噪声生成的纯2D归纳视觉信号。最后,我们通过将See3D集成到基于变形的流程中,为高保真度的3D生成引入了一种新颖的视觉条件3D生成框架。我们在单一和稀疏重建基准上的数字和视觉比较表明,基于成本效益和可扩展视频数据训练的See3D实现了显著的零样本和开放世界生成能力,明显优于在昂贵和受限的3D数据集上训练的模型。请参阅我们的项目页面:https://vision.baai.ac.cn/see3d
线性变换器作为标准Transformer的高效替代方案备受关注,但在检索和长上下文任务中的表现有限。为了解决这些限制,最近的研究探索了两种不同的机制:用于自适应内存控制的门控机制和用于精确内存修改的增量更新规则。我们观察到这些机制是互补的:门控机制实现快速内存擦除,而增量规则促进有针对性的更新。基于这一观察,我们引入了门控增量规则,并开发了一种针对现代硬件优化的并行训练算法。我们提出的架构,门控增量网络(Gated DeltaNet),在多个基准测试中始终优于现有模型,如Mamba2和DeltaNet,包括语言建模、常识推理、上下文检索、长度外推和长上下文理解。我们通过开发将门控增量网络层与滑动窗口注意力或Mamba2层相结合的混合架构,进一步提升性能,实现了训练效率和任务性能的双重提升。
在这项工作中,我们提出了扩散Transformer中的第一个运动迁移方法,通过混合评分指导(MSG),这是一个在扩散模型中进行运动迁移的理论基础框架。我们的关键理论贡献在于重新构造条件评分,以分解扩散模型中的运动评分和内容评分。通过将运动迁移构建为潜在能量的混合,MSG自然地保留了场景构成,并在保持传输的运动模式完整性的同时实现了创造性的场景转换。这种新颖的采样直接在预训练的视频扩散模型上运行,无需额外的训练或微调。通过大量实验,MSG展示了成功处理各种情景的能力,包括单个对象、多个对象和对象间运动迁移,以及复杂的摄像机运动迁移。此外,我们介绍了MotionBench,这是第一个运动迁移数据集,包括200个源视频和1000个迁移运动,涵盖了单个/多个对象的迁移和复杂的摄像机运动。
随着像哥白尼计划这样的大型项目档案中地球观测数据量不断增加,对底层原始数据进行高效的向量表示变得日益重要。从预训练深度神经网络中提取特征表示的方法是一种强大的方法,可以提供输入数据的语义抽象。然而,针对包含地理空间数据的图像档案进行此类处理的方法尚未明确定义。本研究提出了对现有社区项目 Major TOM 进行扩展,该项目旨在提供和规范用于地球观测的开放和免费的 AI 可用数据集。此外,随着本文的发表,还公开释放了四个全球和密集的嵌入式数据集,这是目前覆盖地球表面最全面的全球开放地理空间视觉嵌入数据集。
在机器人视觉动作策略学习中,基于扩散的模型在改善动作轨迹生成的准确性方面取得了显著成功,相较于传统的自回归模型。然而,它们由于多个去噪步骤和复杂约束的限制而效率低下。本文介绍了粗到细自回归策略(CARP),这是一种用于视觉动作策略学习的新范式,重新定义了自回归动作生成过程,将其作为一种粗到细、下一规模方法。CARP将动作生成分解为两个阶段:首先,动作自编码器学习整个动作序列的多尺度表示;然后,一个类似GPT风格的变压器通过粗到细的自回归过程对序列预测进行细化。这种直观简单的方法产生了高度准确且平滑的动作,与扩散式策略的性能相匹敌甚至超越,同时保持了与自回归策略相当的效率。我们在各种设置下进行了广泛评估,包括基于状态和基于图像的仿真基准上的单任务和多任务场景,以及真实世界任务。CARP取得了竞争性的成功率,提高了高达10%,并且相较于最先进的策略,推理速度提高了10倍,为机器人任务中动作生成建立了高性能、高效和灵活的范式。
我们提出了一种新颖的外观模型,可以同时实现明确的高质量3D表面网格恢复和逼真的稀疏视角样本的新视图合成。我们的关键思想是将场景的基础几何网格建模为图表的图集,我们使用二维高斯Surfel(MAtCha高斯)进行渲染。MAtCha从现成的单目深度估计器中提取高频场景表面细节,并通过高斯Surfel渲染进行细化。高斯Surfel会动态附加到图表上,同时满足神经体积渲染的逼真性和网格模型的清晰几何,即在单一模型中实现两个看似矛盾的目标。MAtCha的核心是一种新颖的神经变形模型和一个结构损失,可以保留从学习的单目深度中提取的精细表面细节,同时解决它们的基本尺度模糊问题。广泛的实验验证结果表明,MAtCha在表面重建和逼真度方面达到了与顶尖竞争者相媲美的最新水平,但输入视图数量和计算时间却大幅减少。我们相信MAtCha将成为视觉、图形和机器人领域需要明确几何和逼真度的任何视觉应用的基础工具。我们的项目页面如下:https://anttwo.github.io/matcha/
我们提出了一种通过使用LLM进行改写嵌入的难以察觉的多比特文本水印方案。我们微调了一对LLM改写器,这些改写器被设计成行为不同,以便它们在文本语义中反映的改写差异可以被训练有素的解码器识别。为了嵌入我们的多比特水印,我们交替使用两个改写器在句子级别对预定义的二进制代码进行编码。然后,我们使用文本分类器作为解码器来解码水印的每个比特。通过大量实验证明,我们的水印可以在保留原始句子的语义信息的同时,利用小型(1.1B)文本改写器实现超过99.99\%的检测AUC。更重要的是,我们的流程在词替换和句子改写扰动下表现出鲁棒性,并且很好地推广到超出分布范围的数据。我们还展示了基于LLM的评估显示我们水印的隐蔽性。我们已经开源了代码:https://github.com/xiaojunxu/multi-bit-text-watermark。
模型合并在结合专家模型方面显示出巨大潜力,但当合并训练于多个任务的“通用”模型时,合并的好处尚不清楚。我们探讨了在大型(约100B模型)背景下的合并,通过回收在不同任务之间展现权衡的检查点。这些检查点通常是在开发前沿模型的过程中创建的,许多次优的检查点通常会被丢弃。鉴于从不同训练运行(例如不同阶段、目标、超参数和数据混合)中获得的模型检查点池,这些检查点自然地展示了在不同语言能力之间的权衡(例如遵循指令与生成代码),我们调查了合并是否可以将这些次优模型回收为帕累托最优模型。我们的优化算法调整每个检查点在线性组合中的权重,从而产生优于单个模型和基于合并的基线的帕累托最优模型。进一步的分析显示,良好的合并往往包括几乎所有具有非零权重的检查点,这表明即使最初看似糟糕的检查点也可以对最终的良好合并产生贡献。
我们介绍了 Turbo3D,这是一个超快的文本到3D系统,能够在不到一秒的时间内生成高质量的高斯飘带资产。Turbo3D采用了一个快速的4步骤、4视图扩散生成器和一个高效的前馈高斯重构器,两者都在潜在空间中运行。4步骤、4视图生成器是通过一种新颖的双教师方法提炼出的学生模型,该方法鼓励学生从多视图教师那里学习视图一致性,从单视图教师那里学习照片逼真性。通过将高斯重构器的输入从像素空间转移到潜在空间,我们消除了额外的图像解码时间,并将变压器序列长度减半,以实现最大效率。我们的方法在运行时间的一小部分内展示了优越的3D生成结果,相比之前的基线方法而言。