每日精选AI研究论文及翻译
强化学习(RL)通过马尔可夫决策过程(MDP)在数学上对决策进行了形式化。借助MDP,研究人员在各个领域取得了显著突破,包括游戏、机器人技术和语言模型。本文探讨了一种新的可能性,即自然语言强化学习(NLRL),通过将传统MDP扩展到基于自然语言的表示空间。具体而言,NLRL创新性地将RL原则重新定义为其语言对应物,包括任务目标、策略、值函数、贝尔曼方程和策略迭代。借助最新的大型语言模型(LLMs),NLRL可以通过纯提示或基于梯度的训练实现RL样的策略和值改进。在迷宫、突破和井字棋游戏上的实验表明,NLRL框架在不同用例中具有有效性、高效性和可解释性。我们的代码将在https://github.com/waterhorse1/Natural-language-RL 上发布。
现有的开源多模态大型语言模型(MLLMs)通常遵循包括预训练和监督微调的训练过程。然而,这些模型存在分布偏移问题,限制了它们的多模态推理能力,特别是在“思维链”(CoT)性能方面。为了解决这一问题,我们引入了一种偏好优化(PO)过程,以增强MLLMs的多模态推理能力。具体而言,(1)在数据方面,我们设计了一个自动偏好数据构建流程,创建了MMPR,一个高质量、大规模的多模态推理偏好数据集;(2)在模型方面,我们探索将PO与MLLMs集成,开发了一种简单而有效的方法,称为混合偏好优化(MPO),可以提升多模态CoT性能。我们的方法在多个基准测试中表现出改进的性能,特别是在多模态推理任务中。值得注意的是,我们的模型InternVL2-8B-MPO在MathVista上取得了67.0的准确率,比InternVL2-8B高出8.7个点,并且达到了与规模大10倍的InternVL2-76B相当的性能。我们希望这项研究能激发MLLMs的进一步发展。代码、数据和模型将会公开发布。
目前,OpenAI o1 在大推理模型(LRM)研究领域引起了广泛关注。借助这股势头,Marco-o1 不仅专注于数学、物理和编码等具有标准答案的学科,这些学科非常适合强化学习(RL),而且更加注重开放式解决方案。我们的目标是回答这个问题:“o1 模型能否有效地推广到标准不明确、奖励难以量化的更广泛领域?” Marco-o1 采用了Chain-of-Thought(CoT)微调、蒙特卡洛树搜索(MCTS)、反思机制和创新推理策略,针对复杂的现实世界问题解决任务进行了优化。
我们介绍了一种新颖的大规模视觉编码器预训练方法。借鉴了最近在视觉模型自回归预训练方面的进展,我们将这一框架扩展到多模态设置,即图像和文本。在本文中,我们提出了AIMV2,这是一组通用视觉编码器,其特点是简单直观的预训练过程、可扩展性以及在各种下游任务中表现出色。这是通过将视觉编码器与一个多模态解码器配对实现的,后者自回归地生成原始图像块和文本标记。我们的编码器不仅在多模态评估中表现出色,还在诸如定位、定位和分类等视觉基准测试中表现优异。值得注意的是,我们的AIMV2-3B编码器在ImageNet-1k上以冻结主干获得了89.5%的准确率。此外,AIMV2在各种环境中始终优于最先进的对比模型(例如CLIP、SigLIP)在多模态图像理解方面的表现。
我们提出了Hymba,这是一系列小型语言模型,具有混合头并行架构,将Transformer注意力机制与状态空间模型(SSMs)相结合,以提高效率。注意力头提供高分辨率的召回,而SSM头实现了高效的上下文摘要。此外,我们引入了可学习的元记号,这些记号被添加到提示之前,存储关键信息并减轻与注意力机制相关的“被迫关注”的负担。通过整合跨层键-值(KV)共享和部分滑动窗口注意力,进一步优化了该模型,从而实现了紧凑的缓存大小。在开发过程中,我们进行了一项受控研究,比较了在相同设置下的各种架构,并观察到我们提出的架构具有显著优势。值得注意的是,Hymba在小型语言模型方面取得了最先进的结果:我们的Hymba-1.5B-Base模型在性能上超越了所有低于2B的公共模型,甚至在准确率上比Llama-3.2-3B高出1.32%,缓存大小减少了11.67倍,吞吐量提高了3.49倍。
科学进步取决于研究人员综合不断增长的文献。大型语言模型(LMs)能帮助科学家完成这项任务吗?我们介绍了OpenScholar,这是一种专门的检索增强型LM,通过从4500万篇开放获取论文中识别相关段落并综合支持引用的回答来回应科学查询。为了评估OpenScholar,我们开发了ScholarQABench,这是第一个大规模多领域文献检索基准,包括2967个专家撰写的查询和208个长格式答案,涵盖计算机科学、物理学、神经科学和生物医学。在ScholarQABench上,OpenScholar-8B在正确性方面比GPT-4o高出5%,比PaperQA2高出7%,尽管OpenScholar是一个较小的开放模型。虽然GPT-4o在78%到90%的时间内会产生引文幻觉,但OpenScholar的引文准确性与人类专家持平。OpenScholar的数据存储、检索器和自我反馈推理循环还改进了现成的LMs:例如,OpenScholar-GPT4o将GPT-4o的正确性提高了12%。在人类评估中,专家更倾向于OpenScholar-8B和OpenScholar-GPT4o的回答,而不是专家撰写的回答,分别达到51%和70%,而GPT-4o只有32%。我们开放源代码、模型、数据存储、数据以及公开演示。
大型语言模型(LLMs)通过更多推理展示了增强的能力和可靠性,从“链式思考”提示发展到像OpenAI o1这样的产品级解决方案。尽管有各种努力改进LLM推理能力,但在视觉-语言任务中,高质量的长链推理数据和优化的训练流程仍然未得到充分探索。在本文中,我们提出了Insight-V,这是一个早期尝试,旨在1)可扩展地生成复杂多模态任务的长而稳健的推理数据,以及2)一个有效的训练流程,以增强多模态大型语言模型(MLLMs)的推理能力。具体来说,为了无需人工劳动创建长而结构化的推理数据,我们设计了一个两步流程,采用渐进策略生成足够长且多样化的推理路径,以及多粒度评估方法来确保数据质量。我们观察到,直接监督MLLMs使用这种长而复杂的推理数据将无法获得理想的推理能力。为了解决这个问题,我们设计了一个多代理系统,包括一个专门执行长链推理的推理代理和一个训练用于判断和总结推理结果的摘要代理。我们进一步结合迭代的DPO算法来增强推理代理的生成稳定性和质量。基于流行的LLaVA-NeXT模型和我们更强大的基础MLLM,我们展示了在需要视觉推理的具有挑战性的多模态基准测试中的显著性能提升。受益于我们的多代理系统,Insight-V还可以轻松地维持或提高在以感知为重点的多模态任务上的性能。
众所周知,Transformer模型的性能与其参数数量和计算复杂度呈指数关系。虽然像专家混合(MoE)这样的方法将参数数量与计算复杂度分离,但由于高内存访问成本,它们在推断过程中仍面临挑战。本研究引入了UltraMem,将大规模、超稀疏内存层融入其中,以解决这些限制。我们的方法显著降低了推断延迟,同时保持模型性能。我们还研究了这种新架构的扩展规律,表明它不仅具有良好的扩展特性,而且优于传统模型。在我们的实验中,我们训练了具有多达2000万个内存槽的网络。结果显示,我们的方法在给定的计算预算内实现了最先进的推断速度和模型性能。
扩散模型已经彻底改变了内容合成和编辑领域。最近的模型已经用扩散Transformer(DiT)取代了传统的UNet架构,并采用了流匹配来改善训练和采样。然而,它们生成的多样性有限。在这项工作中,我们利用这一限制,通过有选择地注入注意力特征来执行一致的图像编辑。主要挑战在于,与基于UNet的模型不同,DiT缺乏粗到细的合成结构,因此不清楚在哪些层中执行注入。因此,我们提出了一种自动方法来识别DiT中的“关键层”,这些关键层对图像生成至关重要,并展示了这些层如何通过相同机制促进一系列可控的稳定编辑,从非刚性修改到对象添加。接下来,为了实现真实图像编辑,我们引入了一种改进的图像反演方法用于流模型。最后,我们通过定性和定量比较以及用户研究来评估我们的方法,并展示其在多个应用中的有效性。项目页面位于https://omriavrahami.com/stable-flow。
本文介绍了DINO-X,这是由IDEA研究团队开发的统一的面向对象视觉模型,具有迄今为止最佳的开放世界目标检测性能。DINO-X采用与Grounding DINO 1.5相同的基于Transformer的编码器-解码器架构,以追求面向对象的表示,用于开放世界目标理解。为了简化长尾目标检测,DINO-X扩展了其输入选项,支持文本提示、视觉提示和定制提示。通过这种灵活的提示选项,我们开发了一个通用的对象提示,以支持无提示的开放世界检测,使得可以在图像中检测任何物体,而无需用户提供任何提示。为了增强模型的核心基础能力,我们构建了一个包含超过1亿个高质量基础样本的大规模数据集,称为Grounding-100M,用于提升模型的开放词汇检测性能。在这样一个大规模基础数据集上进行预训练,形成了一个基础的对象级表示,使得DINO-X能够集成多个感知头部,同时支持多个对象感知和理解任务,包括检测、分割、姿态估计、对象字幕、基于对象的问答等。实验结果展示了DINO-X的卓越性能。具体而言,DINO-X Pro模型在COCO、LVIS-minival和LVIS-val的零样本目标检测基准上分别达到了56.0 AP、59.8 AP和52.4 AP。值得注意的是,它在LVIS-minival和LVIS-val基准的稀有类别上分别获得了63.3 AP和56.5 AP,将先前的SOTA性能提高了5.8 AP。这一结果突显了其显著提升的长尾目标识别能力。
大型语言模型中的幻觉是一个普遍存在的问题,然而模型产生幻觉的机制尚不明确,这限制了我们解决这一问题的能力。利用稀疏自编码器作为可解释性工具,我们发现这些机制的关键部分是实体识别,即模型检测实体是否是它可以回忆事实的实体。稀疏自编码器在表示空间中揭示了有意义的方向,这些方向可以检测模型是否识别一个实体,例如,检测模型是否不了解某个运动员或电影。这表明模型可能具有自我认知:关于自身能力的内部表示。这些方向具有因果关系:能够引导模型拒绝回答关于已知实体的问题,或者在模型本应拒绝时产生对未知实体属性的幻觉。我们证明,尽管稀疏自编码器是在基础模型上训练的,但这些方向对于聊天模型的拒绝行为具有因果影响,这表明聊天微调已重新利用了这一现有机制。此外,我们初步探讨了这些方向在模型中的机械作用,发现它们扰乱了通常将实体属性移动到最终标记的下游头部的注意力。
扩散模型的快速发展极大地改善了视频合成,特别是在可控视频生成方面,这对于自动驾驶等应用至关重要。然而,现有方法受可扩展性和控制条件整合方式的限制,无法满足自动驾驶应用对高分辨率和长视频的需求。本文介绍了一种基于DiT架构的创新方法MagicDriveDiT,并解决了这些挑战。我们的方法通过流匹配增强了可扩展性,并采用渐进式训练策略来处理复杂场景。通过融合时空条件编码,MagicDriveDiT 实现了对时空潜变量的精确控制。全面的实验表明,它在生成更高分辨率和更多帧的逼真街景视频方面表现出优越性能。MagicDriveDiT 显著提高了视频生成质量和时空控制,扩展了其在自动驾驶各种任务中的潜在应用。
现有的前馈图像到3D方法主要依赖于2D多视图扩散模型,这些模型无法保证3D一致性。这些方法在改变提示视角方向时很容易崩溃,并且主要处理以物体为中心的提示图像。在本文中,我们提出了一种新颖的单阶段3D扩散模型,DiffusionGS,用于从单个视角生成对象和场景。DiffusionGS直接在每个时间步输出3D高斯点云,以强制视角一致性,并允许模型在给定任何方向的提示视图时生成稳健的结果,超越了以物体为中心的输入。此外,为了提高DiffusionGS的能力和泛化能力,我们通过开发场景-对象混合训练策略来扩大3D训练数据。实验证明,我们的方法在生成质量上表现更好(PSNR高2.20 dB,FID低23.25),速度也快了5倍以上(在A100 GPU上约6秒),超过了现有技术的方法。用户研究和文本到3D应用还揭示了我们方法的实际价值。我们的项目页面位于https://caiyuanhao1998.github.io/project/DiffusionGS/,展示了视频和交互式生成结果。
由于训练数据有限,大型语言模型(LLMs)在低资源语言上表现不佳。我们提出了一种方法,可以高效地从整个Common Crawl语料库中收集低资源语言的文本数据。我们的方法UnifiedCrawl利用最少的计算资源对Common Crawl进行过滤和提取,生成比以往可用来源大得多的单语数据集。我们展示了利用这些数据通过高效的适配器方法(QLoRA)微调多语言LLMs,显著提升低资源语言的性能,同时最小化VRAM的使用。我们的实验显示,在语言建模困惑度和少样本提示分数上取得了显著的改进。我们的工作和发布的源代码为使用消费者硬件改进低资源语言的LLMs提供了一种经济实惠的途径。我们的源代码可在以下网址获取:https://github.com/bethelmelesse/unifiedcrawl。
最近在大型语言模型领域取得的进展,特别是通过“思维链”(CoT)方法,已经展示出在解决复杂问题方面取得了显著的改进。然而,现有模型要么出于用户偏好而牺牲详细推理以追求简洁,要么需要大量昂贵的训练数据来学习复杂推理能力,从而限制了它们在解决复杂任务中的潜力。为了弥合这一差距,我们提出了一种简单的方法,遵循测试时间扩展的概念,鼓励模型采用更加耐心的推理风格,而无需引入新的知识或技能。通过采用偏好优化方法,我们生成详细的推理过程作为正例,简单的答案作为负例,从而训练模型偏好在其回答中的彻底性。我们的结果表明,在仅在轻量级数据集上训练的情况下,在GSM8k上的性能提高了高达6.7%。