每日精选AI研究论文及翻译
尽管大型语言模型(LLMs)展现出卓越的能力,但在动态复杂环境中有效利用历史交互信息方面仍面临挑战。记忆系统通过引入持久的信息存储、检索和利用机制,使LLMs能够超越无状态交互。然而,现有的记忆系统往往带来显著的时间和计算开销。为此,我们提出了一种名为LightMem的新型记忆系统,它在记忆系统的性能与效率之间实现了平衡。受人类记忆的Atkinson-Shiffrin模型启发,LightMem将记忆组织为三个互补阶段。首先,认知启发的感官记忆通过轻量级压缩快速过滤无关信息,并按主题对信息进行分组。接着,主题感知的短期记忆整合这些基于主题的组别,组织和总结内容以实现更结构化的访问。最后,采用睡眠时间更新的长期记忆通过离线过程将整合与在线推理解耦。在LongMemEval上使用GPT和Qwen骨干进行的实验表明,LightMem在准确率上(最高提升10.9%)优于强基线,同时将令牌使用量减少高达117倍,API调用减少高达159倍,运行时间缩短超过12倍。代码可在https://github.com/zjunlp/LightMem获取。
我们提出了核心注意力解耦(CAD)技术,该技术通过将核心注意力计算——即softmax(QK^T)V——从模型的其他部分分离出来,并在独立的设备池上执行,从而优化了长上下文大语言模型的训练。在现有系统中,核心注意力与其他层共同部署;在长上下文长度下,其计算量呈二次方增长,而其他组件则接近线性增长,这导致了数据和流水线并行组间的负载不均和拖尾现象。CAD的实现基于两点观察:首先,核心注意力是无状态的,它没有可训练参数,仅包含极少的临时数据,因此负载均衡简化为对计算密集型任务的调度;其次,它是可组合的,现代注意力内核在处理任意长度的令牌级分片融合批次时,仍能保持高效率。CAD将核心注意力划分为令牌级任务,并分派至专用的注意力服务器,这些服务器动态地重新批处理任务以均衡计算量,同时不牺牲内核效率。我们在名为DistCA的系统中实现了CAD,该系统采用乒乓执行方案,完全重叠通信与计算,并在注意力服务器上就地执行以减少内存使用。在512块H200 GPU上,上下文长度达到512k令牌时,DistCA将端到端训练吞吐量提升至多1.35倍,消除了数据和流水线并行中的拖尾现象,并实现了近乎完美的计算与内存平衡。
生成式世界模型(WMs)如今已能模拟出具有惊人视觉真实感的世界,这自然引发了一个问题:它们能否为具身智能体赋予预测性感知能力,以辅助决策?然而,这一问题的研究进展因评估体系的碎片化而受限:现有基准大多采用开环协议,孤立地强调视觉质量,而忽视了具身效用的核心问题——即世界模型是否真能帮助智能体在具身任务中取得成功?为填补这一空白,我们推出了“世界中的世界”(World-in-World),这是首个在闭环环境中对世界模型进行基准测试的开放平台,该环境真实模拟了智能体与环境的交互。World-in-World提供了一套统一的在线规划策略和标准化的动作API,使得异构的世界模型能够用于决策。我们精心设计了四个闭环环境,严格评估了多种世界模型,将任务成功率作为首要指标,并超越了仅关注视觉质量的常规做法;同时,我们还首次提出了具身场景下世界模型的数据缩放定律。我们的研究揭示了三个意外发现:(1)仅凭视觉质量无法保证任务成功,可控性更为关键;(2)利用动作-观察数据进行训练后缩放,比升级预训练的视频生成器更为有效;(3)分配更多的推理计算资源,可显著提升世界模型在闭环环境中的表现。
近期,文本到图像(T2I)生成领域的进展凸显了可靠基准在评估生成图像如何准确反映文本提示语义方面的重要性。然而,现有基准存在以下不足:(1)缺乏多样化的提示场景和多语言支持,这两点对于实际应用至关重要;(2)仅提供主要维度的粗略评估,覆盖的子维度范围有限,且在细粒度子维度评估上表现不足。为应对这些局限,我们推出了UniGenBench++,一个面向T2I生成的统一语义评估基准。具体而言,它包含600个按层次结构组织的提示,以确保覆盖范围与效率:(1)跨越多样化的现实场景,即5个主要提示主题和20个子主题;(2)全面考察T2I模型在10个主要和27个子评估标准上的语义一致性,每个提示评估多个测试点。为严格评估模型对语言和提示长度变化的鲁棒性,我们提供了每个提示的英文和中文版本,包括简短和长形式。利用闭源多模态大语言模型(MLLM),即Gemini-2.5-Pro,其广泛的世界知识和细粒度图像理解能力,我们开发了一个有效的流程,用于可靠的基准构建和简化的模型评估。此外,为进一步促进社区使用,我们训练了一个稳健的评估模型,支持对T2I模型输出进行离线评估。通过对开源和闭源T2I模型的全面基准测试,我们系统地揭示了它们在不同方面的优势与不足。
我们推出Ring-1T,这是首个开源、具备万亿级参数规模的顶尖思维模型。该模型总计拥有1万亿参数,每个令牌激活约500亿参数。在万亿参数规模上训练此类模型带来了前所未有的挑战,包括训练与推理的不一致、rollout处理效率低下以及强化学习系统的瓶颈问题。为解决这些问题,我们开创了三大相互关联的创新技术:(1) IcePop通过令牌级差异掩码与裁剪稳定强化学习训练,解决了训练与推理不匹配导致的不稳定性;(2) C3PO++在令牌预算下动态划分长rollout,提升了资源利用率,实现了高时间效率;(3) ASystem,一个高性能强化学习框架,旨在克服阻碍万亿参数模型训练的系统瓶颈。Ring-1T在关键基准测试中取得了突破性成果:AIME-2025得分93.4,HMMT-2025得分86.72,CodeForces得分2088,ARC-AGI-v1得分55.94。尤为突出的是,它在IMO-2025上达到了银牌水平,彰显了其卓越的推理能力。通过向社区发布完整的1T参数MoE模型,我们为研究界提供了直接访问尖端推理能力的途径。这一贡献标志着大规模推理智能民主化的重要里程碑,并为开源模型性能设立了新基准。
尽管大型语言模型(LLMs)在推动化学发现方面具有巨大潜力,但当前的LLMs缺乏核心化学知识,生成的推理轨迹不可靠,且在多种化学任务中表现欠佳。为解决这些问题,我们提出了Chem-R,一种可推广的化学推理模型,旨在模拟化学家的深思熟虑过程。Chem-R通过一个三阶段框架进行训练,逐步构建高级推理能力,包括:1)化学基础训练,建立核心化学知识;2)化学推理协议蒸馏,融入结构化的专家级推理轨迹,以指导系统且可靠的问题解决;3)多任务组相对策略优化,优化模型在多样分子和反应级别任务中的均衡表现。这一结构化流程使Chem-R在综合基准测试中达到顶尖性能,在分子任务上领先于包括Gemini-2.5-Pro和DeepSeek-R1在内的主流大型语言模型,提升幅度高达46%,在反应任务上提升66%。同时,Chem-R在分子和反应级别任务上均持续超越现有的化学基础模型。这些成果凸显了Chem-R在下一代AI驱动化学发现中的强大泛化能力、可解释性及其作为基础模型的潜力。
基于扩散变换器(DiTs)的长视频生成受限于全注意力机制随序列长度呈二次方扩展的问题。由于注意力机制存在高度冗余性,输出结果主要由一小部分查询-键值对主导。现有的稀疏方法依赖于分块粗粒度估计,其精度与效率的权衡受到块大小的限制。本文提出了一种高效的稀疏注意力机制——混合分组注意力(MoGA),它通过轻量级、可学习的令牌路由器精确匹配令牌,无需进行分块估计。借助语义感知路由,MoGA实现了有效的长程交互。作为一种无核方法,MoGA能够与现代注意力堆栈(包括FlashAttention和序列并行技术)无缝集成。基于MoGA,我们开发了一种高效的长视频生成模型,能够端到端地生成分钟级、多镜头、480p分辨率、24帧每秒的视频,上下文长度约为58万。在多种视频生成任务上的全面实验验证了我们方法的有效性。
尽管多模态大语言模型(MLLMs)在整体理解方面表现出色,但在处理包含复杂场景的密集世界时却显得力不从心,这需要对错综复杂的细节及物体间关系进行精细分析。区域级MLLMs为此迈出了有希望的一步。然而,以往的研究多局限于孤立理解给定区域,忽视了关键的全局上下文信息。为解决这一问题,我们提出了“掌握任意区域”(Grasp Any Region, GAR)方法,旨在实现全面的区域级视觉理解。借助高效的RoI对齐特征重放技术,GAR支持:(1)通过利用必要的全局上下文实现精准感知;(2)建模多个提示之间的交互。由此,GAR自然实现了(3)高级的组合推理能力,能够回答关于任何区域的特定自由形式问题,从而将范式从被动描述转向主动对话。此外,我们构建了GAR-Bench,它不仅为单一区域理解提供了更精确的评估,更重要的是,能够衡量跨多个区域的交互及复杂推理能力。大量实验证明,GAR-1B不仅保持了最先进的图像描述能力,如在DLC-Bench上超越DAM-3B达4.5分,还在建模多提示间关系及高级理解能力方面表现卓越,甚至在GAR-Bench-VQA上超越了InternVL3-78B。尤为重要的是,我们的零样本GAR-8B在VideoRefer-BenchQ上甚至优于领域内VideoRefer-7B,表明其强大能力可轻松迁移至视频领域。
我们提出DeepSeek-OCR作为通过光学二维映射压缩长上下文可行性的初步探索。DeepSeek-OCR由两个组件构成:DeepEncoder作为编码器,DeepSeek3B-MoE-A570M作为解码器。具体而言,DeepEncoder作为核心引擎,旨在高分辨率输入下保持低激活度,同时实现高压缩比,以确保视觉令牌数量最优且易于管理。实验表明,当文本令牌数量在视觉令牌数量的10倍以内(即压缩比<10倍)时,模型能够实现97%的解码(OCR)精度。即使在20倍的压缩比下,OCR准确率仍保持在约60%。这为历史长上下文压缩及大语言模型(LLMs)中的记忆遗忘机制等研究领域展现了显著潜力。此外,DeepSeek-OCR还展示了较高的实用价值。在OmniDocBench上,它仅使用100个视觉令牌便超越了GOT-OCR2.0(每页256令牌),并在使用少于800个视觉令牌的情况下优于MinerU2.0(平均每页6000+令牌)。在实际生产中,DeepSeek-OCR能够以单张A100-40G显卡每日生成超过20万页的训练数据,服务于大语言模型/视觉语言模型(LLMs/VLMs)。代码及模型权重已公开于http://github.com/deepseek-ai/DeepSeek-OCR。
尽管多模态大语言模型(MLLMs)在视频字幕生成方面展现了卓越能力,实际应用场景却要求字幕能够遵循特定用户指令,而非生成详尽无约束的描述。然而,现有基准测试主要评估描述的全面性,很大程度上忽视了指令遵循能力。为填补这一空白,我们推出了IF-VidCap,一个用于评估可控视频字幕生成的新基准,包含1,400个高质量样本。与现有的视频字幕或通用指令遵循基准不同,IF-VidCap引入了一个系统框架,从格式正确性和内容正确性两个维度评估字幕。我们对超过20个知名模型进行了全面评估,揭示了一个微妙格局:尽管专有模型仍占据主导地位,但性能差距正在缩小,顶级开源解决方案现已接近持平。此外,我们发现专为密集字幕设计的模型在处理复杂指令时表现逊色于通用MLLMs,这表明未来工作应同时推进描述的丰富性和指令遵循的准确性。
尽管扩散模型在生成质量上达到了业界领先水平,但其采样过程仍面临计算成本高昂的问题。近期研究通过基于梯度的优化方法应对这一挑战,这些方法从完整的采样过程中提炼出只需几步的常微分方程(ODE)扩散求解器,从而将函数评估次数从数十次大幅减少至仅几次。然而,这些方法往往依赖于复杂的训练技巧,并未明确聚焦于保留细粒度细节。本文提出了一种广义求解器:一种无需额外训练技巧的ODE采样器参数化方案,其质量优于现有方法。我们进一步将原始蒸馏损失与对抗训练相结合,有效减少了伪影并提升了细节保真度。我们将这一方法命名为广义对抗求解器,并在相似资源限制下,展示了其相较于现有求解器训练方法的卓越性能。代码已发布于https://github.com/3145tttt/GAS。
忠实个性化大型语言模型(LLMs)以契合个体用户偏好,是一项关键却充满挑战的任务。尽管监督微调(SFT)迅速触及性能瓶颈,标准的人类反馈强化学习(RLHF)同样难以驾驭个性化的细微差别。基于标量的奖励模型易受奖励欺骗影响,导致冗长且表面个性化的回应。为应对这些局限,我们提出了“批评-后编辑”框架,一种稳健的强化学习架构,旨在实现更为忠实且可控的个性化。该框架融合两大核心要素:(1)个性化生成奖励模型(GRM),它提供多维评分与文本批评,以抵御奖励欺骗;(2)批评-后编辑机制,在此策略模型依据批评修订自身输出,实现更精准高效的学习。在严格的长度控制评估下,我们的方法在个性化基准上显著优于标准PPO。个性化Qwen2.5-7B模型实现了平均11%的胜率提升,而个性化Qwen2.5-14B模型更是超越了GPT-4.1的表现。这些成果展示了一条通往忠实、高效且可控个性化的实践路径。
尽管视觉-语言模型(VLMs)的最新进展在多种多模态任务中取得了显著进步,但从有限视角理解三维空间关系仍是一个重大挑战。以往推理方法通常依赖于纯文本(如拓扑认知地图)或二维视觉线索。然而,这些方法有限的表征能力在需要三维空间想象力的特定任务中表现受限。为解决这一局限,我们提出了3DThinker框架,该框架能有效利用图像中蕴含的丰富几何信息进行推理,如同人类一般。我们的框架首次实现了在推理过程中无需任何三维先验输入即可进行三维心智模拟,且不依赖显式标注的三维数据进行训练。具体而言,我们的训练分为两个阶段:首先,我们通过监督训练使VLM在推理过程中生成的三维潜在表示与三维基础模型(如VGGT)对齐;随后,我们仅基于结果信号优化整个推理轨迹,从而精炼底层的三维心智模拟。在多个基准测试上的广泛实验表明,3DThinker持续超越强基线,并为将三维表征统一到多模态推理中提供了新视角。我们的代码将在https://github.com/zhangquanchen/3DThinker 公开。
多语言水印技术旨在使大型语言模型(LLM)的输出在不同语言间可追踪,然而现有方法仍显不足。尽管声称具备跨语言鲁棒性,这些方法仅在高资源语言上进行了评估。我们揭示,现有的多语言水印方法并非真正多语言:在中低资源语言下,面对翻译攻击时其鲁棒性丧失。我们将此失败归因于语义聚类,当分词器词汇表中针对某一语言的全词标记过少时,该机制失效。为解决这一问题,我们引入了STEAM,一种基于反向翻译的检测方法,能够恢复因翻译而削弱的水印强度。STEAM与任何水印方法兼容,在不同分词器和语言间均表现出鲁棒性,非侵入式设计,且易于扩展至新语言。在17种语言上,STEAM平均提升了+0.19的AUC值和+40%的TPR@1%,为跨语言公平水印提供了一条简单而稳健的路径。
近期,多模态大语言模型(MLLMs)的发展显著提升了人工智能理解视觉模态的能力。然而,现有的评估基准仍局限于单轮问答,忽视了现实场景中多轮对话的复杂性。为填补这一空白,我们推出了MT-Video-Bench,一个全面的视频理解基准,用于评估MLLMs在多轮对话中的表现。具体而言,MT-Video-Bench主要评估六项核心能力,这些能力聚焦于感知与交互,涵盖了从多个领域精心挑选的987段多轮对话。这些能力严格对应实际应用场景,如互动体育分析和基于视频的多轮智能辅导。借助MT-Video-Bench,我们对多种最先进的开源与闭源MLLMs进行了广泛评估,揭示了它们在处理多轮视频对话时的显著性能差异与局限。该基准将公开提供,以促进未来研究。
近期视频生成技术的进步使得制作视觉上引人入胜的视频成为可能,这些技术在内容创作、娱乐和虚拟现实等领域有着广泛的应用。然而,由于注意力机制在输出宽度和高度上的二次计算复杂度,大多数现有的基于扩散变换器的视频生成模型仅限于低分辨率输出(<=720P)。这一计算瓶颈使得原生高分辨率视频生成(1080P/2K/4K)在训练和推理中都变得不切实际。为解决这一挑战,我们提出了UltraGen,一种新颖的视频生成框架,能够实现i)高效且ii)端到端的原生高分辨率视频合成。具体而言,UltraGen采用了一种基于全局-局部注意力分解的分层双分支注意力架构,将完整注意力解耦为用于高保真区域内容的局部注意力分支和用于整体语义一致性的全局注意力分支。我们进一步提出了一种空间压缩的全局建模策略,以高效学习全局依赖关系,以及一种分层跨窗口局部注意力机制,在增强不同局部窗口间信息流动的同时降低计算成本。大量实验表明,UltraGen首次有效地将预训练的低分辨率视频模型扩展至1080P甚至4K分辨率,在定性和定量评估中均优于现有的最先进方法和基于超分辨率的两阶段流程。
数据质量在提升大规模语言模型(LLMs)的监督微调(SFT)中扮演着关键角色,而细粒度的令牌级数据选择已成为一个颇具前景的研究方向。尽管现有令牌级选择方法在实证中表现出色,但它们普遍存在两大局限:(1)需要训练或访问额外的参考模型;(2)仅依赖损失信息进行令牌选择,无法充分保留那些不被基于损失的指标青睐但语义重要的令牌。为应对这些挑战,我们提出了ssToken,一种自调节且语义感知的令牌选择方法。ssToken利用易于获取的历史模型计算当前模型与历史模型间的每令牌损失差异,作为自调节信号,使模型能沿其优化轨迹自适应地选择令牌,而非如先前工作那样依赖于离线训练参考模型的额外损失。此外,我们引入了一种基于注意力的语义感知令牌重要性评估指标,与基于损失的选择正交,提供互补的语义信息以实现更有效的筛选。跨不同模型家族和规模的广泛实验表明,自调节选择和语义感知选择单独使用均优于全数据微调,而它们的整合——ssToken——实现了协同增益,进一步超越了先前的令牌级选择方法,在保持训练效率的同时带来了性能提升。
原始CLIP文本编码器受限于77个token的最大输入长度,这限制了其有效处理长文本和进行细粒度语义理解的能力。此外,CLIP文本编码器缺乏对多语言输入的支持。这些限制显著制约了其在更广泛任务中的适用性。近期研究尝试用基于大语言模型(LLM)的嵌入器替换CLIP文本编码器,以增强其在处理长文本、多语言理解及细粒度语义理解方面的能力。然而,由于LLM的表示空间与CLIP的视觉-语言空间是独立预训练的,缺乏对齐先验,直接使用对比学习进行对齐可能会破坏CLIP图像编码器内在的视觉-语言对齐,导致预训练期间获得的知识未能充分利用。为解决这一挑战,我们提出了ProCLIP,一个基于课程学习的渐进式视觉-语言对齐框架,旨在有效对齐CLIP图像编码器与基于LLM的嵌入器。具体而言,ProCLIP首先从CLIP的文本编码器向基于LLM的嵌入器蒸馏知识,以利用CLIP丰富的预训练知识,同时建立LLM嵌入器与CLIP图像编码器之间的初始对齐。随后,ProCLIP通过图像-文本对比微调进一步对齐CLIP图像编码器与基于LLM的嵌入器,采用自蒸馏正则化以避免过拟合。为实现更有效的对齐,在表示继承和对比微调过程中,采用了实例语义对齐损失和嵌入结构对齐损失。代码已发布于https://github.com/VisionXLab/ProCLIP。
近年来,面向视觉内容(如图像、视频及三维物体/场景)的大规模生成模型取得了显著进展。然而,由于跨模态文本-视频对齐、长序列处理以及复杂的时空依赖性,训练大规模视频生成模型仍面临巨大挑战且资源消耗巨大。为应对这些挑战,我们提出了一套训练框架,该框架围绕四大支柱进行优化:(i) 数据处理,(ii) 模型架构,(iii) 训练策略,以及 (iv) 大规模视频生成模型的基础设施。这些优化措施在数据预处理、视频压缩、参数扩展、基于课程学习的预训练及对齐导向的后训练等各个环节均实现了显著的效率提升与性能改进。我们最终得到的模型——MUG-V 10B,在整体上媲美近期最先进的视频生成器,并在电商导向的视频生成任务中,于人类评估中超越了领先的开源基线模型。尤为重要的是,我们开源了完整的技术栈,包括模型权重、基于Megatron-Core的大规模训练代码,以及视频生成与增强的推理流程。据我们所知,这是首次公开利用Megatron-Core实现高训练效率与近乎线性的多节点扩展的大规模视频生成训练代码,详情请访问https://github.com/Shopee-MUG/MUG-V{我们的网页}。
动态空间关系的推理至关重要,因为观察者和物体常常同时移动。尽管视觉-语言模型(VLMs)和视觉专家模型在二维任务和静态场景中表现出色,但它们全面理解动态三维场景的能力仍显不足。我们提出了动态空间智能,并引入了DSI-Bench,这是一个包含近1000个动态视频和超过1700个手工标注问题的基准,涵盖了观察者与物体的九种解耦运动模式。空间和时间上的对称设计减少了偏差,使得模型对自身运动和物体运动的推理能力能够被系统评估。我们对14个VLMs和专家模型的评估揭示了关键局限:模型常混淆观察者与物体的运动,表现出语义偏差,且在动态场景中难以准确推断相对关系。我们的DSI-Bench为未来具备动态空间智能的通用模型和专家模型的发展提供了宝贵的发现与洞见。
尽管大型语言模型(LLM)代理在自动化交易中展现出潜力,它们仍面临关键局限。主流的多元代理框架常存在效率低下、信号不一致的问题,且缺乏从市场反馈中学习连贯策略所需的端到端优化能力。为此,我们推出了AlphaQuanter,一个采用强化学习(RL)的单代理框架,该框架在透明、工具增强的决策流程上学习动态策略,使单一代理能够自主协调工具并按需主动获取信息,从而建立透明且可审计的推理过程。大量实验表明,AlphaQuanter在关键金融指标上达到了业界领先水平。此外,其可解释的推理揭示了复杂策略,为人类交易者提供了新颖且有价值的洞见。我们的数据获取与代理训练代码已公开于:https://github.com/AlphaQuanter/AlphaQuanter。
在本研究中,我们证明了从经过后训练的模型中提取大量对齐训练数据是可行的——这些数据可用于引导模型提升特定能力,如长上下文推理、安全性、指令遵循及数学运算。尽管多数相关研究在衡量训练数据提取成功与否时侧重于字符串匹配,但我们认为嵌入模型更契合我们的特定目标。通过高质量嵌入模型测量的距离能够识别字符串间的语义相似性,而诸如编辑距离等不同度量标准则难以捕捉这些相似性。事实上,在我们的调查中,近似字符串匹配会严重低估(保守估计为10倍)可提取的数据量,原因在于一些降低度量值的琐碎人工痕迹。有趣的是,我们发现模型容易复述用于后训练阶段(如SFT或RL)的训练数据。我们展示这些数据随后可用于训练基础模型,恢复相当一部分原始性能。我们相信,本研究揭示了一个可能被忽视的提取对齐数据的风险。最后,我们的工作引发了对蒸馏实践下游效应的有趣讨论:既然模型似乎在复述其训练集的某些方面,因此蒸馏可被视为间接地在模型原始数据集上进行训练。
利用大型多模态模型(LMMs)进行视频推理依赖于成本高昂的强化学习(RL)和冗长的思维链,导致训练和推理过程中产生巨大的计算开销。此外,这些推理模型中控制思维过程的机制非常有限。在本文中,我们通过模型输出的熵作为信号,发现高质量模型经历了一系列微观探索和微观利用,这些过程使推理过程保持稳健(即避免模型在探索或思考答案时产生过多的随机性)。我们进一步观察到,一旦这种“思考”过程结束,更精确的模型通过最终的利用阶段显著降低熵,从而表现出更好的收敛性(即更确定地收敛到解决方案轨迹)。随后,我们利用这些新颖且理论支持的见解,在推理过程中直接调整模型行为,而无需使用任何RL或有监督微调。具体而言,在推理过程中,我们提出的方法V-Reason(视频推理)通过一个基于熵目标的小型可训练控制器进行少量优化步骤,来调整LMM的值缓存,即无需任何数据集或RL的监督。这种调优改善了模型在推理过程中的微观探索和利用行为。我们的实验表明,与基础指令调优模型相比,我们提出的方法在多个视频推理数据集上实现了显著改进,将与非训练RL模型的平均准确率差距缩小至0.6%以内,同时提供了巨大的效率优势:与RL模型相比,输出标记减少了58.6%。
医疗诊断应用需要能够处理多模态医疗输入(影像、病历、实验室结果)并生成多样化输出的模型,包括文本报告和视觉内容(标注、分割掩码和图像)。尽管存在这一需求,现有的医疗AI系统却打破了这一统一流程:医疗影像理解模型能解读影像但无法生成视觉输出,而医疗影像生成模型能合成图像却无法提供文本解释。这导致了数据表示、特征整合及任务级多模态能力的缺失。为此,我们提出一个多层次框架,借鉴诊断工作流程中的观察-知识-分析(OKA)范式。具体而言,在观察层面,我们构建了UniMed-5M数据集,包含超过560万样本,将多样化的单模态数据重新格式化为多模态对,以支持基础观察。在知识层面,我们提出了渐进式课程学习,系统性地引入医疗多模态知识。在分析层面,我们推出了UniMedVL,首个医疗统一多模态模型,能在单一架构内同时执行影像理解与生成任务的分析。UniMedVL在五项医疗影像理解基准测试中表现卓越,同时在八种医疗影像模态的生成质量上与专业模型相当。尤为关键的是,我们的统一架构实现了双向知识共享:生成任务增强了视觉理解特征,表明将传统上分离的能力整合于单一医疗框架内,能够解锁多种医疗视觉-语言任务的改进潜力。代码已发布于https://github.com/uni-medical/UniMedVL。
我们推出了Mono4DGS-HDR,这是首个从交替曝光拍摄的无位姿单目低动态范围(LDR)视频中重建可渲染四维高动态范围(HDR)场景的系统。为应对这一极具挑战性的问题,我们提出了一个基于高斯溅射的两阶段优化统一框架。第一阶段在正交相机坐标系中学习视频HDR的高斯表示,无需相机位姿即可实现稳健的初始HDR视频重建。第二阶段将视频高斯转换至世界坐标系,并与相机位姿联合优化世界高斯。此外,我们提出了一种时间亮度正则化策略,以增强HDR外观的时间一致性。鉴于该任务此前未被研究,我们利用公开数据集构建了一个新的HDR视频重建评估基准。大量实验表明,Mono4DGS-HDR在渲染质量和速度上均显著优于从现有最先进方法改编的替代方案。
大型语言模型(LLMs)在自然语言推理方面展现出强大能力,但其行为通常仅限于输出词汇标记。因此,与外部环境(如符号操作符或模拟器)的交互必须通过预定义格式的文本表达,经解析后路由至外部接口。这使模型的语言负担了推理与控制双重职责,并需依赖一个独立于LLM之外的手工解析器。为解决此问题,我们通过将环境交互内化于词汇之外的扩展动作空间(ExpA),实现了与语言的解耦。模型初始在默认语言环境中进行推理,但可随时触发路由动作切换至外部环境。在此环境下,模型仅能调用特定于环境的动作,接收环境反馈,并可能据此路由回语言环境。为促进对扩展动作空间及新环境的有效探索,我们引入了基于反事实策略优化的扩展动作强化学习(EARL)。在需要多轮交互与条件规划的任务中,EARL超越了受限于词汇动作的强基线模型。在基于计算器的多任务学习场景下表现稳健,并在部分可观测的排序问题中,实现了Sort-4的完美准确率,同时自主发现了一种可与经典设计相媲美的高效算法。
代码代理在诸如GitHub等平台上被日益信赖以自主修复漏洞,然而其安全评估几乎完全聚焦于功能正确性。本文揭示了一种针对现实世界代码代理的新型威胁:功能正确但存在漏洞(FCV)的补丁,这些补丁能通过所有测试用例却包含易受攻击的代码。通过我们提出的FCV攻击——该攻击可由恶意攻击者精心设计或由善意开发者无意引入——我们展示了包括ChatGPT和Claude在内的最先进大语言模型(LLMs),以及SWE-agent和OpenHands等代理框架,均易受此FCV威胁影响;在SWE-Bench上的12种代理-模型组合中,攻击仅需对代码代理进行黑盒访问及单次查询即可实施。例如,针对CWE-538(信息泄露漏洞),FCV攻击在GPT-5 Mini + OpenHands上的攻击成功率达到了40.7%。我们的研究结果揭示了当前评估范式所忽视的一项重要安全威胁,并呼吁开发具备安全意识的代码代理防御机制。
大型多模态模型(LMMs)在科学研究中的应用日益广泛,然而它们能否可靠地理解并推理论文中的多模态复杂性仍不明确。核心挑战在于检测并解决文本、图表、表格和公式之间的不一致性,这些问题往往微妙且领域特定,最终削弱了清晰度、可重复性和信任度。现有基准测试忽视了这一问题,要么孤立单一模态,要么依赖合成错误,未能捕捉现实世界的复杂性。我们推出了PRISMM-Bench(基于同行评审的多模态模型不一致性集),这是首个基于科学论文中评审者标记的真实不一致性的基准。通过评审挖掘、LLM辅助过滤和人工验证的多阶段流程,我们从242篇论文中精选了262个不一致性案例。基于此,我们设计了三个任务:不一致性识别、修正及配对匹配,以评估模型在不同模态间检测、纠正和推理不一致性的能力。此外,针对多项选择评估中模型仅利用答案模式而不真正理解问题的顽疾,我们进一步引入了基于JSON的结构化答案表示,通过减少对表面风格线索的依赖,最小化语言偏见。我们对21个领先的LMMs进行了基准测试,包括大型开源权重模型(GLM-4.5V 106B, InternVL3 78B)和专有模型(Gemini 2.5 Pro, GPT-5高推理版)。结果显示,模型表现显著偏低(26.1%-54.2%),凸显了多模态科学推理的挑战,并激励我们朝着可信赖的科学助手方向迈进。
可重复科学的基础在于精确、逻辑有序且可执行的实验方案。通过自然语言查询自主生成这些方案,可以极大提升实验复现的效率。然而,当前领先的大型语言模型(LLMs)生成的方案往往不完整或不一致,限制了其实用性。为解决这一局限,我们首先引入了SciRecipe,这是一个包含超过12,000条结构化方案的大规模数据集,涵盖27个生物学子领域,并包含理解与问题解决任务。为进一步提升方案生成质量,我们提出了“草图填充”范式,将分析、结构化和表达分离,确保每一步都明确且可验证。与此相辅相成,基于组件的结构化奖励机制评估步骤粒度、动作顺序和语义保真度,使模型优化与实验可靠性保持一致。基于这些组件,我们开发了Thoth,通过分阶段的“知识到行动”过程进行训练,从知识获取到操作推理,最终实现稳健、可执行的方案生成。在多个基准测试中,Thoth持续超越专有和开源LLMs,在步骤对齐、逻辑顺序和语义准确性方面取得显著提升。我们的方法为构建可靠的科学助手铺平了道路,这些助手能够将知识与实验执行相连接。所有数据、代码和模型都将公开发布。
图像质量是网络平台呈现视觉吸引内容的关键因素。然而,图像常因在线社交网络(OSNs)应用的有损操作而遭受质量下降,进而影响用户体验。图像修复是从给定的退化输入中恢复出清晰高质量图像的过程。近年来,多任务(一体化)图像修复模型因其能同时处理多种图像退化类型而受到广泛关注。但这些模型通常包含过多可训练参数,导致计算效率低下。本文提出了一种压缩多任务图像修复模型的策略,旨在从过度参数化的深度模型中发现高度稀疏的子网络,这些子网络能够匹配甚至超越其密集对应模型的性能。所提出的模型,即MIR-L,采用了一种迭代剪枝策略,通过多轮移除低幅值权重,同时将剩余权重重置为其初始值。这一迭代过程对于多任务图像修复模型的优化至关重要,有效揭示了在高稀疏度下仍能保持或超越当前最优性能的“获胜彩票”。在去雨、去雾和去噪任务的基准数据集上的实验评估表明,MIR-L仅保留了10%的可训练参数,同时保持了高水平的图像修复性能。我们的代码、数据集及预训练模型已公开于https://github.com/Thomkat/MIR-L。
大语言模型推理中的一个核心挑战在于生成速度与输出质量之间的权衡。自回归模型能够生成高质量文本,但需要逐个顺序生成token。扩散模型虽可并行生成token,却往往需要多次迭代才能达到同等质量。我们提出了一种混合方法——规划扩散,它结合了两种范式的优势。规划扩散分两阶段工作:首先,模型创建一个简短的自回归计划,将输出分解为更小、独立的片段;其次,模型利用扩散方法同时生成这些片段。这一方法拓展了速度-质量的帕累托前沿,为更快、高质量的文本生成提供了实用路径。在包含805条指令跟随提示的AlpacaEval测试集上,规划扩散实现了质量与延迟之间的帕累托最优权衡,相较于自回归生成,速度提升了1.27倍至1.81倍,而胜率仅分别下降了0.87%至5.4%。我们的敏感性分析表明,规划扩散的规划机制简洁可靠,且存在简单的运行时调节机制,可灵活控制质量与延迟的权衡。
大型语言模型(LLMs)展现出强烈但浅层的对齐性:它们在助手轮次一开始便直接拒绝有害查询,然而一旦有害内容继续生成(无论是通过对抗性攻击还是有害的助手预填充攻击),这种保护机制便会崩溃。这引发了一个根本性问题:能否解锁LLMs内在的浅层对齐性,以确保在任意生成深度下的安全性?为实现这一目标,我们提出了任意深度对齐(Any-Depth Alignment, ADA),一种高效的推理时防御机制,其开销可忽略不计。ADA基于我们的观察构建,即对齐性通过浅层拒绝训练中的重复使用集中在助手头部标记上,这些标记承载了模型的强对齐先验。通过在生成过程中重新引入这些标记,ADA促使模型重新评估有害性,并在生成的任何时刻恢复拒绝行为。在多种开源模型家族(如Llama、Gemma、Mistral、Qwen、DeepSeek及gpt-oss)中,ADA实现了稳健的安全性能,且无需对基础模型的参数进行任何修改。它针对从几十到数千个标记的挑战性对抗性预填充攻击,实现了接近100%的拒绝率。此外,ADA将显著对抗性提示攻击(如GCG、AutoDAN、PAIR和TAP)的平均成功率降至3%以下。这一切都是在保持良性任务效用且最小化过度拒绝的前提下完成的。即使基础模型经历了后续的指令微调(无论是良性还是对抗性的),ADA仍能维持其韧性。
经过指令微调的大语言模型(IT-LLMs)展现出强大的零样本推理能力,然而其在执行简单、自包含指令方面的能力仍未被充分探索,尽管这是复杂指令遵循的基础。我们在修改后的MMLU和MMLU-Pro基准上评估了20个IT-LLMs,通过系统性地改变选项标签的格式(字母、数字、罗马数字)同时保持其含义一致,在四种范式下进行测试:(1) 在有明确指令的情况下,标签变化导致性能大幅波动(例如,罗马数字与数字相比下降30.45%),揭示了指令格式偏见。(2) 在没有指令时,性能进一步下降(最多下降10.84%),且对标签的敏感性增强,凸显了明确指导的重要性。(3) 当选项内容被移除时,除数字标签外,模型未能超越随机选择基线,表明对原子指令的遵循能力较弱。(4) 三样本示例并未显著提升鲁棒性或忠实度,生成分析显示标签错误持续存在,尤其是非数字格式。在不同模型规模中,更大的LLMs虽达到更高准确率,但在指令遵循上仍不一致。这些结果揭示了当前指令微调范式的不足,并强调需要针对原子指令遵循的评估方法和训练策略。
倘若人工智能体不仅能交流,还能进化、适应,并以我们无法完全预见的方式重塑其世界,那将会怎样?随着大语言模型(LLM)如今驱动着多智能体系统和社会模拟,我们正目睹着为开放、不断变化的环境建模的新可能。然而,当前大多数模拟仍局限于静态的沙盒之中,其特征是预设任务、有限的动态变化和僵化的评估标准。这些限制使得它们难以捕捉现实社会中的复杂性。本文主张,静态的、任务特定的基准从根本上讲是不足的,必须重新思考。我们批判性地审视了将LLM与多智能体动态相结合的新兴架构,强调了诸如平衡稳定性与多样性、评估意外行为以及扩展至更高复杂性等关键挑战,并为此快速发展的领域引入了一套全新的分类体系。最后,我们提出了一项以开放性、持续协同进化以及发展具有韧性、社会对齐的AI生态系统为核心的研究路线图。我们呼吁社区超越静态范式,共同塑造下一代适应性强、具备社会意识的多智能体模拟系统。
我们利用全球恐怖主义数据库(GTD,1970-2016)对每周恐怖主义事件数量进行短期预测研究。我们构建了一个可重复的流程,采用固定时间划分,并将双向长短期记忆网络(BiLSTM)与强基准模型(季节性朴素模型、线性/ARIMA模型)以及深度LSTM-注意力基线模型进行对比评估。在保留的测试集上,BiLSTM取得了6.38的均方根误差(RMSE),优于LSTM-注意力模型(9.19;提升30.6%)和线性滞后回归基线模型(RMSE提升35.4%),同时在平均绝对误差(MAE)和平均绝对百分比误差(MAPE)上也有并行改进。通过消融实验,我们考察了时间记忆、训练历史长度、空间粒度、回望窗口大小及特征组的变化,发现基于长期历史数据训练的模型泛化能力最佳;适中的回望窗口(20-30周)能提供强有力的上下文信息;双向编码对于捕捉窗口内的酝酿与后续模式至关重要。特征组分析表明,短期结构(滞后计数和滚动统计)贡献最大,地理和伤亡特征则带来增量提升。我们公开了代码、配置及简洁的结果表格,并提供了数据/伦理声明,记录了GTD的许可及仅用于研究的使用情况。总体而言,本研究为GTD事件预测提供了一个透明且超越基线的参考框架。
可靠且可验证的数据已成为现代语言模型能力提升的关键驱动力,它使得基于可验证奖励的稳定强化学习成为可能,并实现了跨数学、编程及智能体任务的有效知识蒸馏。然而,构建具有普遍适用性的合成可验证数据仍面临挑战,主要源于易产生幻觉的生成过程,以及验证证据的薄弱或琐碎,难以区分优劣解决方案。现有方法多依赖于特定任务的启发式规则或事后过滤机制,这些方法难以跨领域迁移,且缺乏一种原则性、通用的可验证性评估器。本研究中,我们提出了一种进化式、任务无关、策略引导、可执行检查的数据合成框架。该框架从最小化的种子监督出发,协同合成问题、多样化的候选解决方案及验证证据,并通过一致性评估器迭代发现策略,该评估器强制要求人工标注与策略引导的检查结果一致。这一流程将过滤升级为原则性合成:它可靠地组装出连贯、可验证的训练实例,并在无需领域特定规则的情况下实现泛化。我们的实验验证了所提方法在RLVR和模型蒸馏训练范式下的有效性。结果表明,使用我们合成的数据进行训练,在LiveCodeBench和AgentBench-OS任务上均取得了显著提升,凸显了框架的强健泛化能力。
工具增强的大型语言模型(LLMs)正逐渐成为深度研究代理,这类系统能够分解复杂查询、检索外部证据并综合生成有依据的响应。然而,当前的研究代理仍受限于浅层检索、弱对齐指标以及脆弱的工具使用行为。我们推出了PokeeResearch-7B,一个在统一强化学习框架下构建的7B参数深度研究代理,旨在实现鲁棒性、对齐性和可扩展性。PokeeResearch-7B通过无标注的AI反馈强化学习(RLAIF)框架进行训练,利用基于LLM的奖励信号优化策略,这些信号捕捉了事实准确性、引用忠实度和指令遵循度。一个思维链驱动的多轮推理框架进一步增强了鲁棒性,通过自我验证和工具故障的自适应恢复机制。在10个流行的深度研究基准测试中,PokeeResearch-7B在7B规模的深度研究代理中达到了最先进的性能。这表明,精心的强化学习与推理设计能够产生高效、稳健且具备研究级水平的AI代理。该模型及推理代码已根据MIT许可证开源,地址为https://github.com/Pokee-AI/PokeeResearchOSS。