每日精选AI研究论文及翻译
我们推出MiniMax-M1,这是全球首个开放权重的大规模混合注意力推理模型。MiniMax-M1采用混合专家系统(MoE)架构,结合闪电注意力机制驱动。该模型基于我们之前的MiniMax-Text-01模型开发,后者包含总计4560亿参数,每令牌激活459亿参数。M1模型原生支持100万令牌的上下文长度,是DeepSeek R1上下文大小的8倍。此外,MiniMax-M1中的闪电注意力机制实现了测试时计算的高效扩展。这些特性使M1特别适合需要处理长输入和深度思考的复杂任务。MiniMax-M1通过大规模强化学习(RL)在包括沙盒环境和真实世界软件工程问题在内的多样化任务上进行训练。除了M1在RL训练中固有的效率优势外,我们提出了CISPO,一种新颖的RL算法,以进一步提升RL效率。CISPO通过裁剪重要性采样权重而非令牌更新,超越了其他竞争性RL变体。结合混合注意力与CISPO,MiniMax-M1在512台H800 GPU上的完整RL训练仅需三周完成,租赁成本仅为534,700美元。我们发布了两个版本的MiniMax-M1模型,分别具有40K和80K的思考预算,其中40K模型代表80K训练的中期阶段。在标准基准测试上的实验表明,我们的模型与DeepSeek-R1和Qwen3-235B等强开放权重模型相当或更优,尤其在复杂软件工程、工具使用和长上下文任务中表现出色。我们已在https://github.com/MiniMax-AI/MiniMax-M1公开MiniMax-M1。
科学发现日益依赖于基于信息密集型科学数据和领域专业知识的复杂多模态推理。借助专家级科学基准的赋能,科学多模态大语言模型(MLLMs)有望在实际工作流程中显著提升这一发现过程。然而,当前的科学基准主要聚焦于评估MLLMs的知识理解能力,导致对其感知与推理能力的评估不足。为填补这一空白,我们提出了“科学家首次考试”(SFE)基准,旨在通过三个相互关联的层次——科学信号感知、科学属性理解、科学比较推理——来评估MLLMs的科学认知能力。具体而言,SFE包含了830个经过专家验证的视觉问答对,涵盖三种问题类型,跨越五个高价值学科的66项多模态任务。大量实验表明,当前最先进的GPT-3和InternVL-3在SFE上的得分仅为34.08%和26.52%,凸显了MLLMs在科学领域仍有巨大的提升空间。我们期望通过SFE获得的洞见能够推动AI增强科学发现的进一步发展。
深度研究代理(Deep Research Agents,DRAs)是基于大语言模型(LLM)的一类重要智能体。通过自主编排多步骤的网络探索、定向检索及高阶信息整合,它们将海量在线信息转化为分析师级别、引用详实的研究报告——将数小时的手动案头研究压缩至几分钟内完成。然而,目前尚缺乏一个系统评估这些代理能力的全面基准。为填补这一空白,我们推出了DeepResearch Bench,这是一个包含100项博士级别研究任务的基准,每项任务均由22个不同领域的专家精心设计。评估DRAs本身具有复杂性和高劳动强度,因此我们提出了两种新颖的方法论,以实现与人类判断的高度一致。第一种是基于参考的自适应标准方法,用于评估生成研究报告的质量。另一种框架则通过评估有效引用数量及整体引用准确性,来衡量DRA的信息检索与收集能力。我们已在https://github.com/Ayanami0730/deep_research_bench开源了DeepResearch Bench及这些框架的关键组件,以加速实用型LLM智能体的发展。
我们推出了TransDiff,这是首个将自回归(AR)Transformer与扩散模型相结合的图像生成模型。在这一联合建模框架中,TransDiff将标签和图像编码为高级语义特征,并利用扩散模型来估计图像样本的分布。在ImageNet 256x256基准测试中,TransDiff显著超越了基于单一AR Transformer或扩散模型的其他图像生成模型。具体而言,TransDiff实现了1.61的弗雷歇初始距离(FID)和293.4的初始分数(IS),并且与基于AR Transformer的最先进方法相比,推理延迟快了2倍,与仅使用扩散模型的方法相比,推理延迟快了112倍。此外,基于TransDiff模型,我们引入了一种名为多参考自回归(MRAR)的新颖图像生成范式,该范式通过预测下一张图像来执行自回归生成。MRAR使模型能够参考多个先前生成的图像,从而促进学习更多样化的表示,并提高后续迭代中生成图像的质量。通过应用MRAR,TransDiff的性能得到提升,FID从1.61降至1.42。我们期待TransDiff为图像生成领域开辟新的前沿。
本文介绍了DoTA-RAG(动态思维聚合检索增强生成系统),这是一个针对高吞吐量、大规模网络知识索引优化的检索增强生成系统。传统的RAG管道在处理海量、多样化数据集时,常面临高延迟和准确性受限的问题。DoTA-RAG通过三阶段管道应对这些挑战:查询重写、动态路由至专业子索引,以及多阶段检索与排序。我们进一步通过评估并选择更优的嵌入模型,对FineWeb-10BT大规模语料库进行重新嵌入,从而提升了检索效果。此外,我们利用DataMorgana框架生成了涵盖广泛WebOrganizer主题和格式的500个问答数据集,丰富了测试资源。DoTA-RAG将答案正确率从基线(使用LiveRAG预构建向量存储)的0.752提升至1.478,同时保持了低延迟,并在Live Challenge Day上取得了0.929的正确率。这些成果彰显了DoTA-RAG在需要快速、可靠访问大规模动态知识源领域中的实际部署潜力。
近期大型推理模型的进展已能实现复杂的逐步推理,但往往伴随显著的过度思考,导致冗长冗余的输出,影响效率。本研究探讨了以“等待”和“嗯”等标记为信号的外显自我反思是否对高级推理必不可少。我们提出了NoWait方法,这一简洁而有效的策略通过在推理过程中抑制这些标记来禁用外显自我反思。在涵盖文本、视觉及视频推理任务的十项基准测试中,广泛实验表明,NoWait在五个R1系列模型上能将思维链轨迹长度减少27%至51%,且不损害模型效用。因此,NoWait为高效且保持效用的多模态推理提供了一种即插即用的解决方案。
我们推出Ego-R1,一个针对超长(即持续数天乃至数周)第一人称视频进行推理的新颖框架,该框架采用了一种结构化的工具思维链(CoTT)流程,由通过强化学习(RL)训练的Ego-R1智能体协调执行。受人类问题解决策略启发,CoTT将复杂推理分解为模块化步骤,RL智能体在每一步调用特定工具,迭代协作地解答子问题,以应对时间检索和多模态理解等任务。我们设计了一个两阶段训练范式,包括使用CoTT数据对预训练语言模型进行监督微调(SFT)以及RL训练,使我们的智能体能够动态地为长程推理逐步提出工具。为促进训练,我们构建了名为Ego-R1 Data的数据集,其中包含用于SFT的Ego-CoTT-25K和用于RL的Ego-QA-4.4K。此外,我们的Ego-R1智能体在一个新策划的持续一周的视频问答基准测试Ego-R1 Bench上接受评估,该基准包含来自混合来源的人工验证问答对。大量结果表明,Ego-R1智能体通过动态增强的工具思维链推理,能够有效应对理解超长第一人称视频的独特挑战,将时间覆盖范围从几小时显著扩展至一周。
在本研究中,我们对离散扩散语言模型(dLLMs)及离散扩散多模态语言模型(dMLLMs)进行了系统性综述。与自回归(AR)模型不同,dLLMs和dMLLMs采用了一种多标记、并行解码的范式,利用全注意力机制和基于去噪的生成策略。这一范式天然支持并行生成、细粒度输出控制以及动态响应感知能力,这些特性在AR模型中难以实现。近年来,越来越多工业级专有d(M)LLMs及大量开源学术d(M)LLMs展现出了与自回归模型相媲美的性能,同时实现了高达10倍的推理速度提升。 离散扩散LLMs和MLLMs的进步主要得益于两大领域的进展。首先是自回归LLMs和MLLMs的发展,它们积累了海量数据、基准测试及训练与推理的基础设施。其次是离散扩散背后数学模型的演进。这些进展共同推动了2025年初dLLMs和dMLLMs研究的热潮。 本文全面概述了dLLM和dMLLM领域的研究进展。我们追溯了dLLMs和dMLLMs的历史发展,形式化了其数学基础框架,并对代表性模型进行了分类。进一步,我们分析了训练与推理的关键技术,并总结了在语言、视觉-语言及生物领域的新兴应用。最后,我们探讨了未来研究与应用部署的方向。 论文收集地址:https://github.com/LiQiiiii/DLLM-Survey
数据在语言模型获取技能与知识的过程中扮演着至关重要的角色。缺乏大规模、组织良好的预训练数据集会导致数据管道成本高昂且难以获取。我们推出了Essential-Web v1.0,这是一个包含24万亿个token的数据集,其中每个文档都标注了一个涵盖主题、格式、内容复杂度及质量的十二分类体系。这些分类标签由EAI-Distill-0.5b生成,这是一个经过微调的0.5亿参数模型,其标注一致性达到了与Qwen2.5-32B-Instruct相差不到3%的水平。仅通过SQL风格的过滤操作,我们便能在数学(相较于SOTA降低8.0%)、网页代码(提升14.3%)、STEM(提升24.5%)及医学(提升8.6%)领域获得具有竞争力的网络精选数据集。Essential-Web v1.0现已发布于HuggingFace平台:https://huggingface.co/datasets/EssentialAI/essential-web-v1.0。
需要自主性、工具使用和适应性推理的多步骤问题解决的代理任务,正日益成为推动NLP和AI发展的核心。然而,现有的指令数据缺乏工具交互,且当前的代理基准依赖于昂贵的人工标注,限制了其可扩展性。我们推出了TaskCraft,一个自动化工作流,用于生成难度可扩展、多工具且可验证的代理任务及其执行轨迹。TaskCraft通过基于深度和广度的扩展,将原子任务扩展为结构和层次上复杂的挑战。实证结果表明,这些任务在生成工作流中优化了提示,并增强了代理基础模型的监督微调效果。我们提供了一个包含约36,000个不同难度任务的大规模合成数据集,以支持未来关于代理调优和评估的研究。
我们提出了自回归检索增强(Autoregressive Retrieval Augmentation, AR-RAG),这是一种新颖的范式,通过在图像生成过程中自回归地融入基于补丁的k近邻检索,从而提升图像生成质量。与现有方法在生成前进行单一、静态检索,并基于固定参考图像条件化整个生成过程不同,AR-RAG在每一步生成时执行上下文感知的检索,利用先前生成的补丁作为查询,检索并整合最相关的补丁级视觉参考,使模型能够响应不断变化的生成需求,同时避免了现有方法中普遍存在的过度复制、风格偏差等局限。为实现AR-RAG,我们提出了两种并行框架:(1)解码中的分布增强(Distribution-Augmentation in Decoding, DAiD),一种无需训练的即插即用解码策略,直接将模型预测补丁的分布与检索补丁的分布融合;(2)解码中的特征增强(Feature-Augmentation in Decoding, FAiD),一种参数高效的微调方法,通过多尺度卷积操作逐步平滑检索补丁的特征,并利用这些特征增强图像生成过程。我们在广泛采用的基准测试集上验证了AR-RAG的有效性,包括Midjourney-30K、GenEval和DPG-Bench,结果表明其相较于最先进的图像生成模型取得了显著的性能提升。
诸如DUSt3R这样的密集匹配方法通过回归成对点云图进行三维重建。然而,依赖成对预测及有限的泛化能力,本质上制约了全局几何一致性。在本研究中,我们提出了Test3R,一种出奇简单的测试时学习技术,显著提升了几何精度。利用图像三元组(I_1,I_2,I_3),Test3R从图像对(I_1,I_2)和(I_1,I_3)生成重建结果。其核心思想是通过自监督目标在测试时优化网络:最大化这两次重建相对于共同图像I_1的几何一致性。这确保了模型无论输入如何,都能产生跨图像对一致性的输出。大量实验证明,我们的技术在三维重建和多视角深度估计任务上显著超越了先前的最先进方法。此外,该技术具有普适性且几乎无额外成本,易于应用于其他模型,并以极小的测试时训练开销和参数占用实现。代码已发布于https://github.com/nopQAQ/Test3R。
在本研究中,我们探讨了监督微调(SFT)与强化学习(RL)在开发强大推理模型中的协同效应。我们首先通过两种扩展策略来精心准备SFT训练数据:增加收集的提示数量以及每个提示生成的响应数量。这两种方法均显著提升了推理性能,其中增加提示数量的策略带来了更为显著的提升。随后,我们深入研究了SFT与RL协同作用下的两个关键问题:(i) 一个更强的SFT模型是否在大规模RL训练后总能带来更优的最终性能?(ii) 在RL训练过程中,如何为给定的SFT初始化确定合适的采样温度,以有效平衡探索与利用?我们的研究结果表明,只要进行有效的RL训练,特别是当采样温度被精心选择以保持温度调整后的熵值在0.3左右时,问题(i)的答案是肯定的,这一设置很好地平衡了探索与利用。值得注意的是,在RL过程中,初始SFT模型之间的性能差距显著缩小。依托于坚实的SFT基础以及对SFT与RL协同作用的深刻理解,我们的AceReason-Nemotron-1.1 7B模型在AceReason-Nemotron-1.0的基础上实现了显著超越,并在基于Qwen2.5-7B的推理模型中,在数学和代码等挑战性基准测试上达到了新的最先进水平,从而验证了我们后训练方案的有效性。我们已在以下地址发布模型与数据:https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B。
随着大语言模型(LLM)通用能力的快速提升,LLM个性化——即如何构建能够生成针对不同用户角色定制化响应或服务的LLM系统——已成为日益重要的研究与工程课题。然而,与评估通用/推理能力的众多新挑战性基准相比,高质量LLM个性化评估基准的缺失严重阻碍了该领域的发展。为此,我们推出了PersonaFeedback,这是一个直接评估LLM在给定预定义用户角色和查询时提供个性化响应能力的新基准。与现有基准要求模型从历史交互中推断隐含用户角色不同,PersonaFeedback将角色推断与个性化分离,专注于评估模型根据显式角色生成定制化响应的能力。PersonaFeedback包含8298个人工标注的测试案例,这些案例根据用户角色的上下文复杂性及区分两个个性化响应间细微差异的难度,分为简单、中等和困难三个等级。我们对多种模型进行了全面评估,实证结果显示,即便是能够解决复杂现实世界推理任务的最先进LLM,在PersonaFeedback的困难等级上也可能表现不佳,这一等级下甚至人类评估者也可能难以辨别差异。此外,我们对各类系统的失败模式进行了深入分析,表明当前的检索增强框架不应被视为个性化任务的事实解决方案。所有基准数据、标注协议及评估流程将公开,以促进未来LLM个性化研究的发展。
在多模态思维链(CoT)推理领域,现有方法主要依赖于纯语言空间的推理,这本质上存在语言偏见,且大多局限于数学或科学领域。这种狭窄的聚焦限制了它们处理需要全面理解图像细节的复杂视觉推理任务的能力。为解决这些局限,本文引入了VGR,一种新型的多模态大语言模型(MLLM),具备增强的细粒度视觉感知能力。与仅在语言空间回答问题或进行推理的传统MLLM不同,我们的VGR首先检测可能有助于解决问题的相关区域,然后基于重放的图像区域提供精确答案。为此,我们构建了一个名为VGR-SFT的大规模SFT数据集,其中包含混合视觉定位与语言演绎的推理数据。VGR的推理流程允许模型选择用于视觉参考的边界框,并引入重放阶段,将相应区域整合到推理过程中,增强多模态理解能力。在LLaVA-NeXT-7B基线上的实验表明,VGR在需要全面理解图像细节的多模态基准测试中表现优异。与基线相比,VGR仅使用了30%的图像标记数量,却在MMStar上提升了4.1分,在AI2D上提升了7.1分,在ChartQA上实现了12.9分的显著提升。
大型语言模型(LLMs)在跨任务和跨语言方面展现出了卓越的泛化能力,彻底革新了自然语言处理领域。本文深入探讨了LLMs中自然涌现的表征对齐现象,特别是在中间层,以及其对解耦语言特定与语言无关信息的意义。我们通过实证研究确认了这种对齐的存在,分析了其与显式设计对齐模型相比的行为特征,并展示了其在保持语义完整性的前提下进行语言特定操控的潜力。基于这些发现,我们提出了推理时语言控制(ITLC)这一创新方法,该方法利用潜在注入实现精确的跨语言控制,并减轻LLMs中的语言混淆问题。实验结果表明,ITLC在保持目标语言语义完整性的同时,具备强大的跨语言控制能力。此外,我们还验证了其在缓解跨语言混淆问题上的有效性,该问题即使在当前大规模LLMs中依然存在,导致语言生成的不一致性。本研究深化了我们对LLMs表征对齐的理解,并为提升其跨语言性能提供了实用解决方案。
追求多样化、复杂且大规模的指令数据对于自动对齐大型语言模型(LLMs)至关重要。尽管存在能够大规模生成合成指令的方法,但它们要么受限于有限的来源,导致分布狭窄,要么依赖于简单的扩展,无法在复杂性方面产生有意义的轨迹。相比之下,有助于高效对齐的指令通常基于认知洞察精心设计,并扎根于现实世界的应用场景。在本文中,我们通过属性化基础来合成此类指令,这一过程包括:1)自上而下的属性化过程,将一组精选的真实指令与特定用户情境相关联;2)自下而上的合成过程,利用网络文档首先生成情境,进而生成有意义的指令。这一框架使我们能够利用广泛的网络文档,大规模地收集多样且复杂的指令。具体而言,我们构建了一个包含100万条指令的数据集,命名为SynthQuestions,并证明基于该数据集训练的模型在多个常见基准测试中均取得了领先性能,且随着使用更多网络语料库,性能持续提升。数据、模型及代码将发布于https://github.com/Ignoramus0817/SynthQuestions。
近期,利用预训练的视觉-语言模型(VLMs)构建视觉-语言-动作(VLA)模型已成为实现高效机器人操作学习的一种有前景的方法。然而,仅有少数方法将3D信号融入VLMs以进行动作预测,且未能充分利用3D数据中固有的空间结构,导致样本效率低下。本文提出BridgeVLA,一种新颖的3D VLA模型,其特点在于:(1) 将3D输入投影至多幅2D图像,确保输入与VLM主干网络对齐;(2) 利用2D热图进行动作预测,统一输入与输出空间于一致的2D图像空间内。此外,我们提出了一种可扩展的预训练方法,使VLM主干网络在下游策略学习前即具备预测2D热图的能力。大量实验表明,所提方法能高效且有效地学习3D操作。BridgeVLA在三个仿真基准测试中均超越了现有最先进的基线方法。在RLBench中,其平均成功率从81.4%提升至88.2%。在COLOSSEUM中,面对具有挑战性的泛化场景,它展现出显著更优的性能,平均成功率从56.7%提升至64.0%。在GemBench中,其平均成功率超越所有对比基线方法。在真实机器人实验中,BridgeVLA平均优于最先进的基线方法32%。它在多种分布外设置下展现出强大的泛化能力,包括视觉干扰和未见过的指令。尤为突出的是,仅需每个任务3条轨迹,它便能在10+任务上实现96.8%的成功率,彰显了其卓越的样本效率。项目网站:https://bridgevla.github.io/
近期大型语言模型(LLM)的进展推动了AI代理的发展,这些代理在多样化、互动性强且开放式的场景中展现出愈发拟人的行为,包括规划、适应及社交动态。这些行为并非仅源于底层模型的内部架构,而是源自其融入特定情境下的代理系统,其中环境因素、社交信号及互动反馈随时间塑造行为。这一演变催生了一门新的科学视角:AI代理行为科学。该视角不仅关注内部机制,更强调系统性地观察行为、设计干预措施以验证假设,以及基于理论解释AI代理如何随时间行动、适应与互动。我们整合了涉及单个代理、多代理及人机交互场景的日益增长的研究成果,并进一步展示了这一视角如何通过将公平性、安全性、可解释性、责任性与隐私视为行为属性,为负责任AI提供指导。通过统一最新发现并规划未来方向,我们将AI代理行为科学定位为传统以模型为中心方法的必要补充,为理解、评估及治理日益自主的AI系统在现实世界中的行为提供了关键工具。
语言模型的持续演进催生了大规模架构的发展,这些架构在广泛任务中展现出卓越性能。然而,这些模型伴随着显著的计算和能源需求,以及潜在的隐私问题。在此背景下,参数规模约为5亿的小型推理语言模型(SRLMs)因其显著的计算效率和成本效益,尤其是在资源受限的环境中,成为一个引人注目的替代方案。尽管具备这些优势,5亿参数模型的有限能力在处理复杂任务如数学推理和代码生成时仍面临挑战。本研究探讨了多种训练策略,包括监督微调(SFT)、知识蒸馏(KD)和强化学习(RL),以及它们的混合实现,旨在提升5亿参数SRLMs的性能。我们分析了有效的方法论以缩小SRLMs与更大模型之间的性能差距,并提出了针对这些小型架构优化的训练流程见解。通过广泛的实验验证与分析,我们的工作旨在为最大化5亿参数模型的推理能力提供可操作的建议。
通过观察与语言反馈进行交互式学习,是随着大型语言模型(LLM)代理的兴起而日益受到关注的研究领域。尽管已有诸多令人印象深刻的实证展示,但迄今为止,这些决策问题的理论框架仍显不足。本文中,我们正式定义了“从语言反馈中学习”(LLF)问题,提出了足以在潜在奖励存在的情况下实现学习的充分假设,并引入了转移规避维度作为衡量LLF问题难度的复杂性指标。我们证明,转移规避维度能够捕捉到反馈信息改变LLF问题学习复杂度的直观理解。我们展示了在某些情况下,从丰富的语言反馈中学习可以比从奖励中学习快指数级。我们开发了一种名为HELiX的无悔算法,该算法通过序列交互可证明地解决LLF问题,其性能保证与问题的转移规避维度成比例。在多个实证领域中,我们展示了即使反复提示LLM无法稳定工作时,HELiX仍能表现出色。我们的贡献标志着向设计基于通用语言反馈的交互式学习算法迈出了第一步。
在包裹配送路线规划、机组调度、工厂生产计划以及电网平衡等领域的复杂优化问题中,人工智能系统的算法工程表现如何?我们推出了ALE-Bench,这是一个用于评估AI系统在基于分数的算法编程竞赛中表现的新基准。ALE-Bench借鉴了AtCoder启发式竞赛中的真实任务,提出了计算难度高且尚无已知精确解的优化问题。与短时间、通过/失败式的编程基准不同,ALE-Bench鼓励在长时间跨度内进行迭代式的解决方案优化。我们的软件框架支持利用测试运行反馈和可视化功能的交互式代理架构。对前沿大语言模型(LLMs)的评估显示,尽管它们在特定问题上表现出色,但在跨问题的一致性和长期问题解决能力方面,与人类相比仍存在显著差距。这凸显了该基准在推动未来AI进步方面的必要性。
大型语言模型(LLMs)正日益融入日常应用中。随着其影响力的扩大,理解其决策过程及内在个性变得至关重要。在本研究中,我们利用提出的超新星事件数据集来解读模型个性,该数据集包含传记、历史事件、新闻和科学发现等多样化的文章。我们使用此数据集对LLMs进行基准测试,评估其从文本中提取和排序关键事件的能力,这是一项主观且复杂的挑战,需要长距离上下文推理和因果链建模。我们评估了小型模型如Phi-4、Orca 2和Qwen 2.5,以及更强大的大型模型如Claude 3.7、Gemini 2.5和OpenAI o3,并提出了一个框架,其中另一个LLM作为裁判,根据模型对事件的选择和分类推断其个性。我们的分析揭示了显著的个性特征:例如,Orca 2展现出关注人际动态的情感推理,而Qwen 2.5则表现出更为战略性和分析性的风格。在分析科学发现事件时,Claude Sonnet 3.7强调概念框架,Gemini 2.5 Pro优先考虑实证验证,而o3则偏好逐步的因果推理。这一分析提升了模型的可解释性,使其更易于用户友好地应用于广泛的多样化场景。
现实世界中的时间序列往往受复杂的非线性动力学支配。理解这些潜在的动力学机制对于精确预测未来至关重要。尽管深度学习在时间序列预测领域已取得重大成功,但许多现有方法并未明确建模这些动力学特性。为弥合这一差距,我们提出了DeepEDM框架,该框架将非线性动力学系统建模与深度神经网络相结合。受经验动力学建模(EDM)启发并基于Takens定理,DeepEDM提出了一种新颖的深度模型,该模型从时间延迟嵌入中学习潜在空间,并采用核回归来近似底层动力学,同时利用softmax注意力的高效实现,从而实现对未来时间步长的准确预测。为评估我们的方法,我们在非线性动力学系统的合成数据以及跨领域的真实世界时间序列上进行了全面实验。结果表明,DeepEDM对输入噪声具有鲁棒性,并在预测准确性上超越了现有最先进的方法。我们的代码可在以下网址获取:https://abrarmajeedi.github.io/deep_edm。
近期,深度思考的大型语言模型往往通过大量推理来提升性能,但如此冗长的推理并非总是理想,因为它会带来过高的推理成本,而性能提升却不成比例。因此,在不牺牲性能的前提下控制推理长度显得尤为重要,但这仍具挑战性,尤其是在严格的思考预算下。我们提出了预算引导法,这是一种简单而有效的方法,旨在无需对大型语言模型进行微调的情况下,引导其推理过程向目标预算靠拢。我们的方法引入了一个轻量级预测器,该预测器在生成下一个令牌时,对剩余思考长度建模为伽马分布。随后,这一信号被用于以柔和的、令牌级别的方式引导生成,确保整体推理轨迹遵循指定的思考预算。预算引导法实现了对思考长度的自然控制,并在具有挑战性的数学基准测试上,相较于基线方法显著提升了令牌效率。例如,在严格预算下,它在MATH-500基准测试上实现了高达26%的准确率提升,同时仅使用了全思考模型63%的思考令牌,保持了竞争力的准确率。预算引导法还泛化至更广泛的任务领域,并展现出新兴能力,如估计问题难度。源代码已发布于:https://github.com/UMass-Embodied-AGI/BudgetGuidance。
采用端到端反向传播训练大型神经网络会带来显著的内存瓶颈,限制了前沿人工智能研究的普及。我们提出DiffusionBlocks,这是一种新颖的训练框架,将神经网络模块解释为在连续时间扩散过程中执行去噪操作。通过将网络划分为可独立训练的模块,并基于等累积概率质量优化噪声水平分配,我们的方法在生成任务中实现了显著的内存效率,同时保持了与传统反向传播相媲美的性能。在图像生成和语言建模任务上的实验表明,内存减少量与模块数量成正比,同时实现了更优的性能。DiffusionBlocks为在有限计算资源下普及大规模神经网络训练提供了一条充满前景的途径。
由于Transformer中的自注意力层在设计上具有排列不变性,必须显式地引入位置编码以实现空间理解。然而,传统的可学习位置嵌入(PE)中使用的固定大小查找表限制了在预训练序列长度之外的泛化能力。专家设计的方法如ALiBi和RoPE虽缓解了这一限制,但在适应新模态时需要进行大量修改,凸显了适应性和可扩展性方面的根本挑战。在本研究中,我们提出了SeqPE,一个统一且完全可学习的位置编码框架,它将每个n维位置索引表示为符号序列,并采用轻量级序列位置编码器以端到端的方式学习其嵌入。为了规范SeqPE的嵌入空间,我们引入了两个互补的目标:一个对比目标,使嵌入距离与预定义的位置距离函数对齐;以及一个知识蒸馏损失,将分布外位置嵌入锚定到分布内教师表示上,进一步增强外推性能。在语言建模、长上下文问答和二维图像分类等任务上的实验表明,SeqPE不仅在困惑度、精确匹配(EM)和准确率上超越了强基线——特别是在上下文长度外推情况下——而且无需手动架构重设计即可无缝泛化到多维输入。我们在https://github.com/ghrua/seqpe发布了代码、数据和检查点。
近期,大型语言模型(LLMs)的进展为精确高效的时间序列分析开辟了新途径,但以往研究往往需要大量微调,且忽视了序列间的关联性。本研究探索了简单灵活的基于提示的策略,使LLMs无需大量再训练或复杂外部架构即可执行时间序列预测。通过深入研究利用时间序列分解、基于分块的标记化及相似性邻居增强等专门提示方法,我们发现,在保持简洁性并仅需最少数据预处理的前提下,提升LLM预测质量是可行的。为此,我们提出了PatchInstruct方法,该方法使LLMs能够做出精准有效的预测。
我们研究了教学视频的多模态摘要技术,其目标是为用户提供一种高效的学习方式,通过文本指令和关键视频帧来掌握技能。我们注意到,现有基准主要关注通用的语义级视频摘要,并不适合提供逐步可执行的指令和图示,而这两者对于教学视频至关重要。为此,我们提出了一个新颖的用户界面(UI)教学视频摘要基准,以填补这一空白。我们收集了一个包含2,413个UI教学视频的数据集,总时长超过167小时。这些视频经过人工标注,包括视频分割、文本摘要和视频摘要,从而支持对简洁且可执行视频摘要的全面评估。我们在自建的MS4UI数据集上进行了大量实验,结果表明,当前最先进的多模态摘要方法在UI视频摘要任务上表现欠佳,凸显了开发针对UI教学视频摘要新方法的重要性。
在当今网络错误与虚假信息泛滥的时代,赋能读者理解所阅内容至关重要。此方向的重要努力依赖于人工或自动的事实核查,这对于信息有限的新兴主张而言颇具挑战。此类情境可通过评估信息来源的可靠性与政治倾向来处理,即对整个新闻机构而非单一主张或文章进行特征刻画。这是一个重要但研究尚不充分的方向。尽管先前工作已探讨了语言和社会背景,我们并不分析社交媒体中的个别文章或信息。相反,我们提出了一种新颖的方法论,模拟专业事实核查员评估整个媒体机构事实性与政治偏见的准则。具体而言,我们基于这些准则设计了多种提示,并引导大型语言模型(LLMs)生成响应,进而汇总这些响应以作出预测。除了通过多项LLMs的广泛实验展示相对于强基线模型的显著改进外,我们还深入分析了媒体流行度与地区对模型性能的影响。此外,我们进行了消融研究,以突出数据集中促成这些改进的关键组成部分。为促进未来研究,我们在https://github.com/mbzuai-nlp/llm-media-profiling 发布了数据集与代码。
近期,大型语言模型(LLMs)的显著进展已对从通用领域到专业领域的广泛范围产生了深远影响。然而,这些进步也极大地增加了恶意用户利用有害及越狱提示进行恶意攻击的可能性。尽管已有诸多努力致力于防范有害提示与越狱提示,保护LLMs免受此类恶意攻击仍是一项重要且具挑战性的任务。本文提出QGuard,一种简洁而有效的安全防护方法,它通过问题提示以零样本方式阻断有害提示。我们的方法不仅能防御基于文本的有害提示,还能抵御多模态有害提示攻击。此外,通过多样化与修改防护问题,我们的方法无需微调即可保持对最新有害提示的鲁棒性。实验结果表明,我们的模型在纯文本与多模态有害数据集上均展现出竞争力。同时,通过对问题提示的分析,我们实现了对用户输入的白盒分析。我们相信,该方法为现实世界中的LLM服务在缓解有害提示相关的安全风险方面提供了宝贵的洞见。
随着可穿戴摄像头的迅速普及,关于第一人称视角视频隐私的重大关切日益凸显,然而先前的研究大多忽视了摄像头佩戴者所面临的独特隐私威胁。本研究探讨了一个核心问题:从佩戴者的第一人称视角视频中,能够推断出多少关于其隐私的信息?我们引入了EgoPrivacy,这是首个用于全面评估第一人称视觉隐私风险的大规模基准。EgoPrivacy涵盖了三种隐私类型(人口统计、个人及情境),定义了七项任务,旨在从细粒度(如佩戴者身份)到粗粒度(如年龄组)恢复私人信息。为了进一步强调第一人称视觉固有的隐私威胁,我们提出了检索增强攻击,这是一种新颖的攻击策略,它通过从外部库中的第三人称视频进行第一人称到第三人称的检索,来增强人口统计隐私攻击的效果。我们对所有威胁模型下可能的不同攻击进行了广泛比较,结果表明佩戴者的隐私信息极易泄露。例如,我们的研究发现,基础模型即使在零样本设置下也能有效侵害佩戴者隐私,通过恢复身份、场景、性别和种族等属性,准确率高达70-80%。我们的代码和数据可在https://github.com/williamium3000/ego-privacy获取。
语言模型主要基于互联网上的海量文本数据进行训练,因此理解这一数据源变得愈发重要。精确匹配搜索引擎能够在大型文本语料库中进行搜索——统计字符串出现次数并检索包含这些字符串的文档——然而其高存储开销阻碍了其在互联网规模数据上的应用。我们提出了Infini-gram mini,一个高效且可扩展的系统,能够使PB级别的文本语料库变得可搜索。基于FM-index数据结构(Ferragina和Manzini,2000年),该系统在索引文本的同时进行压缩,创建的索引大小仅为语料库的44%。Infini-gram mini在索引速度(提升18倍)以及索引和查询过程中的内存使用(分别减少3.2倍和降至可忽略不计)方面,显著优于现有FM-index的最佳实现。我们使用单个128核CPU节点在50天内索引了46TB的互联网文本(若使用75个此类节点,则仅需19小时)。我们展示了Infini-gram mini在基准污染大规模分析中的一个重要应用案例。我们发现,在互联网抓取的数据中,多个核心语言模型评估基准存在严重污染(如SQuAD中高达40%),若在此类数据上训练,可能导致高估语言模型的能力。我们设立了一个基准污染公告板,分享众多核心及社区贡献基准的污染率。同时,我们还发布了一个网络界面和API端点,以服务于Infini-gram mini索引上的通用搜索查询。
自主学习(Self-regulated Learning, SRL)对于大学生应对日益增长的学术要求与独立性至关重要。SRL技能的不足可能导致学习习惯混乱、动力低下及时间管理不善,从而削弱学习者在挑战性环境中取得成功的潜力。通过一项涉及59名大学生的形成性研究,我们识别出学生在发展SRL技能过程中面临的主要挑战,包括目标设定、时间管理及反思性学习方面的困难。为应对这些挑战,我们引入了SRLAgent,一个借助大型语言模型(LLMs)辅助的系统,通过游戏化设计和LLMs的适应性支持来培养SRL技能。基于Zimmerman的三阶段SRL框架,SRLAgent让学生在互动游戏环境中进行目标设定、策略执行及自我反思。该系统利用LLMs提供实时反馈与支架,支持学生的独立学习。我们采用组间设计对SRLAgent进行了评估,将其与无Agent功能的基线系统及传统多媒体学习条件进行对比。结果显示,SRLAgent组在SRL技能上显著提升(p < .001,Cohen's d = 0.234),且相较于基线系统展现出更高的参与度。本研究强调了在游戏化环境中嵌入SRL支架与实时AI支持的价值,为旨在促进深度学习与元认知技能发展的教育技术提供了设计启示。
尽管语言模型在材料科学中的应用日益广泛,但典型模型仍依赖于最初为自然语言处理设计的基于频率的分词方法。然而,这些方法常常导致过度分割和语义丢失,无法保持材料概念的结构和语义完整性。为解决这一问题,我们提出了MATTER,一种将材料知识融入分词过程的新颖方法。MATTER基于我们材料知识库训练的MatDetector以及一种在分词合并中优先考虑材料概念的重新排序方法,确保了识别出的材料概念在分词过程中的结构完整性,避免了分割,从而保持了其语义意义的完整。实验结果表明,MATTER在生成和分类任务中分别实现了平均4%和2%的性能提升,优于现有的分词方法。这些结果凸显了领域知识在科学文本处理分词策略中的重要性。我们的代码可在https://github.com/yerimoh/MATTER获取。
大型语言模型(LLMs)通常通过下一词预测(NWP)进行训练,这种方法虽能提供较强的表层流畅性,但往往缺乏对稳健推理的支持。我们提出了一种新颖的强化学习框架——瓶颈式下一词探索(BOW),该框架重新构思了NWP,引入了一个推理瓶颈:策略模型首先生成一条推理路径,而非直接预测下一个词元,随后,一个冻结的评判模型仅基于此推理路径预测下一个词元的分布。我们采用GRPO训练策略模型,奖励机制量化了推理路径在促进下一词恢复方面的有效性。与其它持续预训练基线相比,BOW在多个基准测试中均提升了基础模型的通用及下一词推理能力。我们的研究结果表明,BOW可作为传统NWP的一种有效且可扩展的替代方案。
通过图像预测与死亡率相关的指标,为可及、无创且可扩展的健康筛查提供了前景。我们提出了一种方法,利用预训练的视觉Transformer基础模型,从面部和全身图像中估算剩余寿命,并辅以稳健的不确定性量化。研究表明,预测不确定性会随真实剩余寿命呈现系统性变化,且通过为每个样本学习高斯分布,可有效建模这种不确定性。我们的方法在已建立的数据集上实现了7.48年的平均绝对误差(MAE),达到当前最优水平;在本研究整理并发布的两个更高质量新数据集上,MAE进一步降至4.79年和5.07年。尤为重要的是,我们的模型提供了校准良好的不确定性估计,其分桶预期校准误差仅为0.62年。尽管这些成果并非为临床部署设计,但它们凸显了从图像中提取医学相关信号的潜力。我们公开了所有代码和数据集,以促进进一步研究。
我们提出并评估了一套概念验证(PoC)结构化工作流程提示,旨在引导大型语言模型(LLMs)对学术手稿进行高层次语义和语言分析的同时,激发其类人的层次化推理能力。这些提示针对两项非平凡的分析任务:识别摘要中未经证实的声明(信息完整性)以及标记模糊的代词指代(语言清晰度)。我们在两种前沿模型(Gemini Pro 2.5 Pro和ChatGPT Plus o3)上,在不同上下文条件下进行了系统性的多轮评估。在信息完整性任务中,我们的结果显示模型性能存在显著差异:虽然两个模型均成功识别了名词短语中未经证实的主干(95%成功率),但ChatGPT始终未能识别出Gemini正确标记的未经证实的形容词修饰语(0%成功率),这引发了对目标句法角色潜在影响的疑问。在语言分析任务中,两个模型在完整手稿上下文下表现良好(80-90%成功率)。然而,在仅提供摘要的设置下,ChatGPT实现了完美(100%)的成功率,而Gemini的表现则大幅下降。我们的研究结果表明,结构化提示是复杂文本分析的有效方法,但提示性能可能高度依赖于模型、任务类型和上下文之间的相互作用,强调了进行严格、模型特定测试的必要性。
现有自动音乐生成的研究主要集中于端到端系统,这些系统能够创作完整的乐曲或延续片段。然而,由于音乐创作通常是一个迭代过程,此类系统难以实现人机之间对于计算机辅助创作至关重要的互动交流。本研究针对个性化、多轨、长上下文且可控的符号音乐填充任务,旨在优化计算机辅助作曲流程。我们提出了MIDI-RWKV,一种基于RWKV-7线性架构的新颖模型,以实现在边缘设备上高效且连贯的音乐共创。此外,我们展示了MIDI-RWKV在极低样本量情况下,通过微调其初始状态实现个性化的有效方法。我们通过多项定量与定性指标对MIDI-RWKV及其状态调优进行了评估,并在https://github.com/christianazinn/MIDI-RWKV发布了模型权重与代码。
语言随时间演变,包括仇恨言论领域,其变化速度紧跟社会动态与文化变迁。尽管自然语言处理(NLP)研究已探讨了语言演变对模型训练的影响,并提出了若干应对策略,但其对模型基准测试的影响仍待深入探究。然而,仇恨言论基准在确保模型安全性方面扮演着关键角色。本文通过两项关于仇恨言论演变的实验,实证评估了20种语言模型的鲁棒性,揭示了静态评估与时间敏感性评估之间的时序错位。我们的研究结果呼吁建立时间敏感的语言基准,以便在仇恨言论领域正确且可靠地评估语言模型。