每日精选AI研究论文及翻译
金融市场具有高噪声与非平稳特性,使得阿尔法因子挖掘对回测结果中的噪声及市场机制的突变高度敏感。虽然近期出现的智能体框架提升了阿尔法挖掘的自动化程度,但往往缺乏可控的多轮搜索机制和已验证经验的可复用性。针对这些挑战,我们提出QuantaAlpha框架——一种将每次端到端挖掘过程视为轨迹的进化式阿尔法挖掘系统,通过轨迹级变异与交叉操作优化因子。该框架能定位轨迹中的次优步骤进行针对性修正,并重组互补的高收益片段以实现有效模式复用,从而在多次挖掘迭代中实现结构化探索与优化。在因子生成过程中,QuantaAlpha确保假设、因子表达式与可执行代码之间的语义一致性,同时约束生成因子的复杂度和冗余度以缓解因子拥挤。基于沪深300指数的广泛实验表明,该框架相较强基线模型与现有智能体系统取得稳定收益。当采用GPT-5.2时,QuantaAlpha的信息系数达到0.1501,年化收益率达27.75%,最大回撤控制在7.98%。此外,在沪深300上挖掘的因子可有效迁移至中证500和标普500指数,四年累计超额收益分别达160%和137%,表明该框架在市场分布变化下具有强鲁棒性。
随着后训练优化成为提升大语言模型性能的核心手段,我们观察到一种持续存在的饱和瓶颈:当模型达到高度置信状态后,继续训练带来的收益逐渐递减。尽管现有方法持续强化目标预测,但我们发现模型自身历史弱状态中仍潜藏着有价值的监督信号。基于这一发现,我们提出WMSS(弱智能体可使强智能体更强)——一种利用弱检查点引导持续优化的后训练范式。该方法通过熵动态识别可修复的学习差距,并借助补偿性学习进行强化,使强智能体能够突破传统后训练的饱和限制。在数学推理和代码生成数据集上的实验表明,采用本方法训练的智能体实现了显著性能提升,且推理过程无需任何额外计算成本。
音频在现实世界视频中不可或缺,然而生成模型长期以来忽视了音频组件。当前生成视听内容的方法通常依赖级联流水线,这会增加成本、累积误差并降低整体质量。尽管Veo 3和Sora 2等系统强调了同步生成的价值,但联合多模态建模在架构、数据和训练方面带来了独特挑战。此外,现有系统的闭源特性限制了该领域的发展。本文提出MOVA(MOSS视频音频生成模型),这一开源模型能够生成高质量、同步的视听内容,包括逼真的口型同步语音、环境感知音效以及内容匹配的音乐。MOVA采用混合专家架构,总参数量达320亿,其中推理时激活参数为180亿。该模型支持图像-文本到视频-音频的生成任务。通过开源模型权重与代码,我们旨在推动研究发展并培育充满活力的创作者社区。所发布的代码库全面支持高效推理、LoRA微调和提示词增强功能。
尽管多模态对比学习在视觉与语言表征对齐方面取得了成功,但始终存在一种几何异常现象——模态鸿沟:表达相同语义的不同模态嵌入会系统性地占据偏移区域。现有弥合该鸿沟的方法大多受限于过度简化的各向同性假设,阻碍了其在大规模场景中的应用。本文通过精确刻画模态鸿沟的几何形态并利用其实现高效模型扩展,以解决这些局限性。首先,我们提出固定框架模态鸿沟理论,将冻结参考系中的模态鸿沟分解为稳定偏差和各向异性残差。基于这一精确建模的指导,我们提出无需训练的模态对齐策略ReAlign。该方法利用海量非配对数据的统计特征,通过锚点对齐、轨迹对齐和质心对齐的三步流程,将文本表征对齐至图像表征分布,从而显式修正几何错位。基于ReAlign,我们进一步提出面向多模态大语言模型的可扩展训练范式ReVision。该范式将ReAlign集成至预训练阶段,使模型在视觉指令微调前就能从非配对文本中学习视觉表征分布,无需依赖大规模高质量图文对。我们的框架证明,经过统计对齐的非配对数据可有效替代昂贵的图文对,为多模态大语言模型的高效扩展提供了可行路径。
当前视觉-语言-动作(VLA)模型采用固定计算深度,对简单调整和复杂多步操作均消耗相同计算量。虽然思维链(CoT)提示支持可变计算,但其内存需求线性增长且难以适应连续动作空间。我们提出循环深度VLA(RD-VLA)架构,通过潜在迭代优化而非显式令牌生成实现计算自适应性。该模型采用权重共享的循环动作头,在恒定内存占用下支持任意推理深度。通过时间截断反向传播(TBPTT)训练,可有效监督优化过程。推理时,RD-VLA基于潜在收敛的自适应停止准则动态分配计算。在复杂操作任务上的实验表明:单次迭代完全失败(成功率0%)的任务经过四次迭代后成功率超过90%,而简单任务则快速饱和。RD-VLA通过潜在推理替代基于令牌的推理,在机器人领域实现了恒定内存占用,相比基于推理的VLA模型推理速度提升高达80倍,为测试时计算提供了可扩展路径。项目页面:https://rd-vla.github.io/
大语言模型智能体在推动科学研究方面具有重要前景。为加速这一进程,我们推出AIRS-Bench(人工智能科研基准),该基准包含从顶尖机器学习论文中精选的20项任务,涵盖语言建模、数学、生物信息学和时间序列预测等多个领域。AIRS-Bench任务旨在评估智能体在完整科研生命周期中的能力——包括创意生成、实验分析与迭代优化——且不提供基准代码。该基准任务格式灵活通用,既可轻松集成新任务,又能实现不同智能体框架的严谨对比。我们采用前沿模型结合串行与并行框架建立了基线,结果显示智能体在四项任务中超越人类顶尖水平,但在其余十六项任务中未能企及。即使智能体超越人类基准,也未能达到底层任务的理论性能上限。这些发现表明AIRS-Bench远未达到饱和状态,存在巨大改进空间。我们开源AIRS-Bench任务定义与评估代码,以推动自主科研领域的进一步发展。
我们推出InternAgent-1.5——一个专为计算与实验科学领域端到端科学发现设计的统一系统。该系统采用由生成、验证和演进三个协同子系统构成的架构,并依托深度研究、方案优化与长周期记忆等基础能力支撑。该架构使InternAgent-1.5能在长周期发现过程中持续运行,同时保持行为一致性并实现性能提升,还能在统一系统内协调计算建模与实验室实验。我们在GAIA、HLE、GPQA和FrontierScience等科学推理基准测试中评估该系统,其领先表现展现了强大的基础能力。超越基准测试范畴,我们进一步评估了两类发现任务:在算法发现任务中,系统能自主设计针对核心机器学习问题的竞争性方法;在实验发现任务中,可执行完整计算或湿实验流程,并在地球科学、生命科学、生物及物理领域产出科学发现。总体而言,这些结果表明InternAgent-1.5为自主科学发现提供了通用且可扩展的框架。
尽管LLaDA2.0展现了百亿级块扩散模型的扩展潜力及其固有并行性,但解码速度与生成质量之间的微妙平衡始终是难以突破的边界。今日我们推出LLaDA2.1,这一范式革新旨在超越此权衡困境。通过将Token到Token编辑机制无缝融入传统Mask到Token框架,我们引入了可配置的联合阈值解码方案。该结构创新催生两种独特模式:迅捷模式大胆降低M2T阈值以突破传统限制,同时依托T2T机制优化输出;品质模式则采用保守阈值策略,在可控效率损耗下确保卓越的基准性能。基于扩展上下文窗口的支撑,我们进一步实现了首个专为扩散大模型设计的大规模强化学习框架,并通过稳定梯度估计技术夯实其基础。这种对齐机制不仅锐化了推理精度,更提升了指令遵循的忠实度,弥合了扩散动力学与复杂人类意图之间的鸿沟。我们同步开源LLaDA2.1-Mini和LLaDA2.1-Flash两个版本。在33项严苛基准测试中,LLaDA2.1展现出强劲的任务性能与闪电级解码速度——即便作为百亿参数模型,其在HumanEval+上达到892 TPS,BigCodeBench达801 TPS,LiveCodeBench更实现663 TPS的惊人代码生成效率。
在线策略学习直接在物理世界中执行是具身智能领域一个前景广阔但充满挑战的方向。与仿真环境不同,现实世界系统无法任意加速、低成本重置或大规模复制,这使得可扩展的数据收集、异构部署和长周期有效训练变得困难。这些挑战表明现实世界的策略学习不仅是算法问题,更本质上是系统问题。我们提出USER——一个面向现实世界在线策略学习的统一可扩展系统。USER通过统一的硬件抽象层将物理机器人视为与GPU同等重要的一级硬件资源,实现异构机器人的自动发现、管理与调度。针对云边通信问题,USER引入具有隧道化网络的自适应通信平面,通过分布式数据通道实现流量本地化,并采用流式多处理器感知的权重同步机制来调控GPU端开销。在此基础设施之上,USER将学习组织为具有持久化缓存感知缓冲区的全异步框架,支持具备鲁棒崩溃恢复能力和历史数据复用功能的长周期实验。此外,USER为奖励函数、算法和策略提供可扩展抽象,支持在统一流水线中实现在线模仿学习或强化学习,涵盖CNN/MLP、生成式策略及大型视觉-语言-动作模型。仿真与真实环境实验表明,USER能够实现多机器人协同、异构机械臂控制、大模型云边协同以及长时异步训练,为现实世界在线策略学习提供了统一可扩展的系统基础。
人工智能与材料科学的交汇带来了变革性机遇,但实现真正的发现加速需要超越任务孤立的微调模型,转向能在完整发现循环中规划、行动和学习的智能体系统。本文提出独特的流程中心视角,涵盖从语料库构建与预训练、领域自适应与指令微调,到连接仿真与实验平台的目标导向型智能体。与既往综述不同,我们将全流程视为端到端系统进行优化,以取得实质性发现成果而非替代性基准指标。这一视角使我们能追溯上游设计选择(如数据整理和训练目标)如何通过有效的功劳分配与下游实验成功相衔接。 为搭建跨学科桥梁并建立共同参照系,我们首先提出整合性框架,统一人工智能与材料科学在术语体系、评估标准和工作流程阶段的认知。继而通过双重视角解析该领域:从人工智能视角,详述大语言模型在文献挖掘、材料表征和性能预测中的模式识别、预测分析和自然语言处理优势;从材料科学视角,重点分析其在材料设计、工艺优化,以及通过与外部工具(如密度泛函理论计算、机器人实验室)集成加速计算工作流方面的应用。最后,我们对比被动响应式方法与智能体设计范式,在梳理现有成果的同时,推动构建具备自主性、记忆能力和工具使用能力的长期目标追寻系统。本综述为开发面向新颖实用材料发现的自主化、安全感知的大语言模型智能体绘制了实用路线图。
在流匹配模型上部署GRPO已被证明对文本到图像生成具有显著效果。然而,现有范式通常将基于结果的奖励传播至所有先前的去噪步骤,而未区分每个步骤的局部影响。此外,当前基于分组的排序方法主要比较相同时步的轨迹,却忽略了轨迹内部的依赖关系——某些早期去噪操作可能通过延迟的隐式交互影响后续状态。我们提出TurningPoint-GRPO(TP-GRPO),这一GRPO框架通过缓解逐步骤奖励稀疏性问题并显式建模去噪轨迹中的长期效应,实现了两大关键创新:(i)用步骤级增量奖励替代结果导向型奖励,提供密集且感知步骤的学习信号,从而更好隔离每个去噪动作的"纯粹"效应;(ii)识别转折点——即改变局部奖励趋势并使后续奖励演化与整体轨迹趋势一致的步骤——并为这些动作分配聚合的长期奖励以捕捉其延迟影响。转折点仅通过增量奖励的符号变化即可检测,使得TP-GRPO兼具高效性与超参数无关性。大量实验表明,TP-GRPO能更有效地利用奖励信号并持续提升生成质量。演示代码详见:https://github.com/YunzeTong/TurningPoint-GRPO。
近期图像生成模型的进展使得基于用户指令预测未来图形用户界面(GUI)状态成为可能。然而现有基准主要关注通用领域的视觉保真度,对GUI特定场景中状态转换和时间连贯性的评估仍显不足。为填补这一空白,我们推出GEBench——一个用于评估GUI生成中动态交互与时间连贯性的综合基准。该基准包含700个精心筛选的样本,涵盖五大任务类别,涉及真实与虚构场景下的单步交互与多步轨迹,以及定位点标注任务。为支持系统化评估,我们提出GE-Score新型五维度量标准,从目标达成度、交互逻辑性、内容一致性、界面合理性和视觉质量五个维度进行评估。现有模型的广泛测试表明:虽然单步转换表现良好,但在长交互序列中维持时间连贯性和空间定位方面存在显著困难。研究发现图标理解、文本渲染和定位精度是当前的关键瓶颈。本工作为系统化评估奠定了基础,并为构建高保真生成式GUI环境的未来研究指明了方向。代码已开源:https://github.com/stepfun-ai/GEBench。
解决开放式科学问题对大语言模型而言仍具挑战性,主要源于其内在不可靠的监督与评估机制。这一瓶颈集中体现在科学领域后训练的数据构建与奖励设计环节。我们开发了一套大规模系统化数据处理流程,将异构开源科学数据转化为Dr. SCI数据集——该数据集涵盖八门STEM学科共100万道题目,具有明确的可验证/开放式题目划分、可扩展的难度标注体系,以及通过细粒度评分标准实现开放式答案可量化评估的框架。基于此数据集,我们提出Dr. SCI后训练流程,通过三大组件重构标准SFT→RL工作流:(1)探索扩展式SFT,在强化学习前拓宽模型的推理模式覆盖范围;(2)动态难度课程学习,根据模型动态发展的科学能力自适应调整训练数据;(3)科学评分标准引导的RL,借助明确答案正确性的量规化评估,实现开放式科学问题的稳定强化学习。采用Dr. SCI流程训练的Qwen3-4B-Base模型在GPQA-diamond和GPQA-general上分别达到63.2分和32.4分,持续超越o1-mini、GPT-4o等强后训练基线,尤其在开放式场景下的科学推理能力实现显著提升。
尽管当前多模态大语言模型(MLLMs)的视频理解能力日益增强,但现有视频基准主要基于模型的静态内部知识进行评估,而非考察其从少量动态新颖语境中学习适应的能力。为弥补这一差距,我们提出演示驱动视频上下文学习这一新任务,重点研究如何通过上下文演示示例来回答目标视频相关问题。同时,我们推出Demo-ICL-Bench——一个专为评估演示驱动视频上下文学习能力设计的挑战性基准。该基准基于1200个含关联问题的YouTube教学视频构建,从中衍生出两类演示:(i) 基于视频字幕生成的文本演示;(ii) 对应的教学视频作为视频演示。为应对这一新挑战,我们开发了Demo-ICL模型,采用两阶段训练策略:视频监督微调与信息辅助直接偏好优化,共同增强模型从上下文示例中学习的能力。通过对前沿MLLMs的广泛实验,我们验证了Demo-ICL-Bench的挑战性,证明了Demo-ICL的有效性,从而揭示了未来研究方向。
随着大语言模型(LLM)智能体操作范围逐渐突破单一上下文窗口的限制,内存的重要性日益凸显。然而,现有系统大多采用离线且与查询无关的内存构建方式,这种方式效率低下且可能丢失关键信息。尽管运行时内存利用是一种自然的替代方案,但先前的研究往往伴随显著开销,且对性能与成本的权衡缺乏显式控制。本文提出BudgetMem——一种支持显式、查询感知的性能成本控制的运行时智能体内存框架。该框架将内存处理构建为若干内存模块,每个模块提供低/中/高三个预算层级。通过轻量级路由器在模块间执行预算层级路由,以平衡任务性能与内存构建成本,该路由机制采用强化学习训练的紧凑神经策略实现。基于BudgetMem这一统一测试平台,我们研究了实现预算层级的三种互补策略:实现方式(方法复杂度)、推理行为(推断模式)和容量配置(模块模型规模)。在LoCoMo、LongMemEval和HotpotQA基准测试中,BudgetMem在优先考虑性能(即高预算设置)时超越强基线模型,并在严格预算限制下提供更优的精度-成本边界。此外,我们的分析揭示了不同层级策略的优劣特性,明确了在不同预算条件下各维度何时能实现最佳权衡。
大型语言模型(LLMs)执行长期现实任务的能力日益增强。然而随着上下文量的增长,其可靠性往往会出现下降,这一现象被称为"上下文衰减"。现有的长上下文基准测试主要聚焦于单步场景,仅评估模型从长文本片段中检索信息的能力。但在实际应用中,LLMs常需作为智能体运作:探索环境、遵循指令与规划、提取有效信息,并在动态增长的上下文中预测正确行动。为评估语言智能体在此类场景下的表现,我们推出LOCA-bench(面向长上下文智能体的基准测试框架)。给定任务提示后,LOCA-bench通过自动化可扩展的环境状态控制来调节智能体的上下文长度。该设计使LOCA-bench能在保持底层任务语义不变的前提下,以可控方式将上下文长度无限延伸。LOCA-bench将语言智能体视为模型与架构的组合进行评估,涵盖多种上下文管理策略。实验表明,虽然智能体性能会随环境状态复杂度增加而普遍下降,但先进的上下文管理技术能显著提升整体成功率。我们开源LOCA-bench平台,旨在为长上下文智能场景下的模型与架构评估提供支持:https://github.com/hkust-nlp/LOCA-bench
大型语言模型(LLM)的进步显著推动了搜索代理的发展,使其能够通过多轮网络交互自主收集信息。目前已有多种基准测试被提出以评估此类代理。然而,现有基准往往从答案反向构建查询,产生与真实需求脱节的非自然任务。此外,这些基准通常侧重于定位特定信息或聚合多源信息,同时依赖易受数据污染影响的静态答案集。为弥补这些不足,我们推出GISA基准测试——面向通用信息检索助手的评估体系,包含373个反映真实信息检索场景的人工构建查询。GISA具有四种结构化答案格式(单项、集合、列表和表格),支持确定性评估。该基准在统一任务中融合深度推理与广泛信息聚合,并包含定期更新答案的动态子集以抵抗记忆效应。值得注意的是,GISA为每个查询提供完整的人类搜索轨迹,为过程级监督和模仿学习提供黄金标准参考。对主流LLM和商业搜索产品的实验表明,即使表现最佳的模型精确匹配率也仅为19.30%,且在需要复杂规划和全面信息收集的任务中性能显著下降。这些发现揭示了未来改进的巨大空间。
执行复杂终端任务对于开放权重的大型语言模型而言仍是重大挑战,主要受限于两个根本性瓶颈。首先,高保真可执行训练环境稀缺:基于真实代码库合成的环境缺乏多样性与可扩展性,而LLM生成的任务轨迹存在幻觉问题。其次,标准指令微调使用的专家轨迹极少包含小模型常见的简单错误,导致分布失配问题,使得学生模型难以从自身运行时错误中恢复。为突破这些限制,我们提出TermiGen——一种可验证环境与鲁棒专家轨迹的端到端合成流程。TermiGen首先通过多智能体迭代优化循环生成功能有效的任务与Docker容器,随后采用生成器-评判器协议,在轨迹采集中主动注入错误,合成富含错误修正循环的数据集。基于TermiGen数据集微调的TermiGen-Qwen2.5-Coder-32B模型在TerminalBench上达到31.3%的通过率,创造了开放权重模型的新标杆,显著超越现有基线模型及o4-mini等专有模型。数据集已发布于https://github.com/ucsb-mlsec/terminal-bench-env。
生成深度研究报告需要大规模信息获取与洞察驱动的综合分析,这对当前语言模型构成重大挑战。现有方法大多遵循"先规划后撰写"范式,其性能高度依赖初始大纲质量。然而构建全面大纲本身需要强大的推理能力,导致现有深度研究系统几乎完全依赖闭源或在线大模型。这种依赖性不仅造成实际部署障碍,更对用户数据的隐私安全构成隐患。本研究提出AgentCPM-Report——一个轻量级高性能本地解决方案,包含模拟人类写作流程的框架与80亿参数深度研究智能体。该框架采用"写作即推理策略",使模型能在报告生成过程中动态修订大纲。在此策略下,智能体交替执行"证据驱动起草"与"推理驱动深化",共同支持信息获取、知识精炼及大纲迭代演进。为有效赋能小模型,我们提出包含冷启动、原子技能强化学习、全流程强化学习的多阶段智能体训练策略。在DeepResearch Bench、DeepConsult和DeepResearch Gym上的实验表明,AgentCPM-Report在洞察力指标上显著超越主流闭源系统。
空间具身智能要求智能体在部分可观测环境下通过主动行为获取信息。尽管多模态基础模型在被动感知方面表现卓越,但其主动探索能力仍待深入研究。我们提出"空间理论",定义为智能体通过自主主动探索获取信息,并从序列化局部观测中构建、修正和利用空间认知的能力。我们通过构建认知地图的好奇心驱动探索基准进行评估,其核心创新在于空间信念探测技术——在每一步骤提示模型揭示其内部空间表征。对前沿模型的评估揭示了若干关键瓶颈:首先,我们发现存在"主动-被动差距",当智能体需自主收集信息时性能显著下降;其次,模型探索效率低下,与基于程序的代理相比缺乏系统性。信念探测分析表明,感知虽是初始瓶颈,但全局信念存在不稳定性,导致空间认知随时间退化。通过错误信念实验,我们揭示了"信念惯性"现象——智能体难以用新证据更新过时先验,该问题在文本智能体中存在,但在视觉模型中尤为严重。研究表明,现有基础模型在主动探索过程中难以维持连贯可修正的空间信念。
本文提出WorldCompass——一种面向长周期交互式视频世界模型的新型强化学习后训练框架,通过交互信号使模型能够更精准、更连贯地探索世界。为有效引导世界模型的探索过程,我们针对自回归视频生成范式引入三大核心创新:1)片段级推演策略:在单个目标片段处生成并评估多组样本,显著提升推演效率并提供细粒度奖励信号;2)互补式奖励函数:设计同时兼顾交互跟随精度与视觉质量的奖励函数,既提供直接监督又有效抑制奖励作弊行为;3)高效强化学习算法:采用负向感知微调策略并结合多种效率优化手段,以高效方式提升模型能力。在开源前沿世界模型WorldPlay上的实验表明,WorldCompass在各种场景下均能显著提升交互精度与视觉保真度。
当前化学大语言模型主要依赖自然语言的显式思维链进行复杂推理。然而化学推理本质上具有连续性和结构特征,强行将其压缩为离散语言标记会导致表征失配,从而制约效率与性能。我们提出LatentChem——一种潜在推理界面,将化学计算与文本生成解耦,使模型能在连续潜在空间中直接执行多步推理,仅对最终结果进行语言输出。值得注意的是,我们观察到一种持续的涌现现象:当仅针对任务成功率进行优化时,模型会自发内化推理过程,逐步摒弃冗长的文本推导转向隐式的潜在计算。这种转变不仅是风格性的,更具计算优势。在多项化学推理基准测试中,LatentChem在ChemCoTBench上以59.88%的非平局胜率超越基于思维链的强基线模型,同时实现平均10.84倍的推理加速。我们的实验结果实证表明:化学推理通过连续潜在动态实现,比离散化语言轨迹更具自然性与有效性。
由于二次注意力机制和不断增长的键值缓存,大语言模型的长上下文推理成本高昂,这推动了上下文压缩技术的发展。本研究聚焦软上下文压缩方法,即将长上下文凝练为少量连续表征。现有方法通常将大语言模型本身作为可训练压缩器,依赖逐层自注意力迭代聚合信息。我们认为该范式存在两大结构缺陷:(i)跨层的渐进式表征覆盖;(ii)跨令牌的压缩容量分配失协。为此,我们提出ComprExIT(基于显式信息传输的上下文压缩)这一轻量级框架,将软压缩重构为新范式:基于冻结隐状态的显式信息传输。该方法使压缩过程与模型内部自注意力动态解耦。ComprExIT通过(i)深度维传输——将多层信息选择性地传输至令牌锚点以缓解渐进覆盖;(ii)宽度维传输——通过全局优化的传输方案将锚点聚合为少量槽位,确保信息分配的协同性。在六个问答基准测试中,ComprExIT以仅约1%的参数量增长持续优于现有上下文压缩方法,证明显式协同的信息传输能实现更高效稳健的长上下文压缩。
演绎、归纳与溯因是人类逻辑思维的三大基本推理范式。尽管提升大语言模型(LLM)的推理能力已吸引大量研究关注,但这些基础范式在多大程度上能引发泛化能力仍有待系统探索。本研究旨在揭示三大核心范式的相互作用如何影响LLMs的推理行为。为此,我们首先从符号化任务中收集了针对单一推理范式的新数据集,以剥离具体世界知识的干扰;继而探究将这些推理能力注入LLMs的有效途径。我们尝试了包括简单微调、增加模型深度的复杂方法,以及将稠密模型转换为专家混合模型等多种策略。通过在完全基于自然语言并包含真实世界知识的现实跨领域任务上进行全面评估,结果表明我们的方法能带来强大的泛化能力,在现实任务中实现显著性能提升(最高达14.60分)。
大型推理模型(LRMs)通过生成多步骤的长推理轨迹在复杂推理任务中表现优异,但推理时的扩展性会带来高昂的部署成本。核心挑战在于单个输出中的生成难度存在差异,而现有效率优化方法要么忽略这种生成过程内的难度波动,要么依赖具有高系统复杂度的监督式令牌级路由。我们提出RelayGen——一种无需训练、基于片段级的运行时模型切换框架,该框架利用长链推理中的难度变化特性。通过基于令牌概率边际的生成不确定性离线分析,我们发现粗粒度的片段级控制足以捕捉推理轨迹中的难度转换节点。RelayGen能识别模型特定的切换信号,这些信号标志着推理进入低难度片段,并动态将其续写任务委派给轻量模型,同时保留高难度推理任务由大模型处理。在多项推理基准测试中,RelayGen在保持大模型绝大部分精度的同时,显著降低了推理延迟。当与推测解码技术结合时,RelayGen可实现最高2.2倍的端到端加速,且精度损失小于2%,无需额外训练或学习路由组件。
仅权重量化已成为高效服务大语言模型(LLMs)的标准方法。然而,现有方法难以将模型高效压缩至二进制(1比特)级别,因为它们要么需要大量数据与算力,要么会产生额外存储开销。本研究提出NanoQuant——首个将LLMs压缩至二进制及亚1比特级别的训练后量化(PTQ)方法。该方法将量化问题构建为低秩二进制分解任务,将全精度权重压缩为低秩二进制矩阵与缩放因子。具体而言,它采用高效的交替方向乘子法(ADMM)精确初始化潜在二进制矩阵与缩放因子,再通过分块重构与模型重建过程微调初始化参数。由此,NanoQuant在低内存训练后量化领域建立了新的帕累托前沿,即使在亚1比特压缩率下仍能实现最优精度。该技术使得大规模模型部署在消费级硬件上成为可能:例如,在单张H100显卡上仅用13小时即可将Llama2-700亿参数模型压缩25.8倍,使700亿参数模型可运行于8GB显存的消费级GPU。
基础模型,包括大语言模型(LLMs)、多模态大语言模型(MLLMs)、图像生成模型(即文生图模型与图像编辑模型)以及视频生成模型,已成为法律、医疗、教育、金融、科学等众多领域不可或缺的核心工具。随着这些模型在现实场景中的广泛应用,确保其可靠性与责任性已成为学术界、产业界和政府部门关注的焦点。本综述系统探讨基础模型的可靠性与责任性发展路径,深入剖析偏见与公平性、安全与隐私、不确定性、可解释性及分布偏移等关键问题,同时涵盖模型幻觉等局限性问题,以及对齐技术、AIGC检测等解决方案。针对每个领域,我们梳理了当前研究现状并指明具体的前沿研究方向。此外,本文还探讨了这些领域之间的交叉关联,揭示其内在联系与共性挑战。我们期望通过本次综述推动基础模型向不仅强大、更具备伦理约束、可信可靠且承担社会责任的方向发展。
近期,自回归视频扩散模型取得了显著性能突破。然而,由于训练时长的限制,在更长生成周期进行测试时会出现训练-测试差异,导致画面质量快速退化。继研究训练时长内差异的Self Forcing之后,本文重点探究超越训练时长的差异问题,即有限训练周期与开放式测试周期之间的鸿沟。鉴于开放式测试可能超出任何有限训练窗口,且长视频训练计算成本高昂,我们寻求无需重新训练的解决方案。通过系统分析自回归缓存维护机制,我们提出了滚动缓存更新策略Rolling Sink。基于仅使用5秒片段训练的Self Forcing框架,Rolling Sink在测试阶段成功将自回归视频生成扩展至超长周期(如16帧/秒下生成5-30分钟视频),实现角色一致性、色彩稳定性、结构连贯性及运动平滑性。大量实验表明,相较于当前最优基线方法,Rolling Sink在长周期视觉保真度与时间一致性方面均实现更优表现。项目主页:https://rolling-sink.github.io/
尽管多模态大语言模型(MLLMs)发展迅速,但在正确答案依赖于场景在未观察或替代视角下如何呈现时,视觉空间推理仍不可靠。近期研究通过引入世界模型进行视觉想象以增强推理能力,但关于想象何时真正必要、其有益程度如何以及何时会产生负面影响等问题仍缺乏深入理解。实践中,无差别的想象不仅会增加计算量,还可能因引入误导性证据而降低性能。本研究对测试时视觉想象作为可控资源在空间推理中的作用展开深入分析,探究静态视觉证据何时足够、想象何时能提升推理能力,以及过度或不必要的想象如何影响准确性与效率。为支持分析,我们提出AVIC——一种自适应测试时框架,其世界模型能显式推理当前视觉证据的充分性,进而选择性调用并调整视觉想象的规模。在空间推理基准(SAT、MMSI)和具身导航基准(R2R)上的实验表明:想象在关键场景、边缘场景或有害场景中作用差异显著,且选择性控制策略能以显著更少的世界模型调用和语言标记量,达到或超越固定想象策略的效果。总体而言,我们的研究揭示了测试时想象的分析与控制对实现高效可靠空间推理的重要性。
生成分步操作指南是大型语言模型(LLM)的核心能力:聊天机器人常被询问操作建议,而分步规划对复杂任务的推理至关重要。然而,在真实场景中大规模量化和提升流程有效性仍面临挑战且研究不足。为此,我们推出How2Everything框架,用于评估和改进目标导向型流程生成。该框架包含How2Mine组件,可从14个主题的98万个网页中挖掘35.1万条操作流程,并能轻松扩展至更大规模语料库。基于此我们构建How2Bench评估集,包含7000个平衡覆盖各主题的样本。为可靠评分模型输出,我们开发How2Score评估协议,利用LLM作为评判员检测生成内容是否包含阻碍目标达成的关键错误。为实现低成本可复现评估,我们将前沿模型蒸馏为80亿参数开源模型,与人工标注者达成80.5%的一致性。How2Bench清晰揭示了模型规模和训练阶段间的扩展规律,在预训练早期即可提供有效信号。最后,以How2Score作为奖励的强化学习使三个模型在How2Bench上的性能提升超10分,且未在标准基准测试中出现系统性衰退,其增益对表面化的源文档记忆或格式合规具有鲁棒性。How2Everything整体表明,预训练网络数据如何支撑能力评估与规模化改进的闭环系统。
诱导推理已成为通过激发思考来提升大语言模型(LLMs)在复杂任务上表现的有效技术。然而,其在真实用户参与型智能体场景中的有效性尚不明确。本文对用户参与型LLM智能体中显式思考的影响进行了系统性研究。我们的实验涵盖七个模型、三个基准测试平台和两种思考实现方式,并通过定量响应分类分析和定性错误传播案例研究进行评估。与预期相反,我们发现强制思考在用户参与场景中往往适得其反,导致各类LLMs出现异常性能下降。关键发现表明:思考会使智能体趋于"内向化",表现为回复缩短和向用户披露的信息减少,这削弱了智能体与用户间的信息交换,进而引发下游任务失败。进一步实验证明,明确提示信息披露能稳定提升不同模型家族的性能,表明主动透明化是优化智能体的关键杠杆。总体而言,我们的研究表明信息透明意识是未来现实场景推理智能体设计中至关重要却尚未充分探索的维度。代码已开源:https://github.com/deeplearning-wisc/Thinking-Agent。
当前代码验证的主流范式严重依赖外部机制——例如基于执行的单元测试或辅助性LLM评判器——这些方法往往需要大量人力,或受限于评判模型自身的能力。这引发了一个基础性却尚未被探索的问题:能否仅通过LLM的内部计算结构来评估其功能正确性?我们的核心目标是探究模型在代码生成过程中,其神经动力学是否编码了可内部解码、且能预测逻辑有效性的信号。受机制可解释性研究的启发,我们提出将代码验证视为一种机制诊断任务,把模型的显式算法轨迹映射为行级归因图。通过解构复杂的残差流,我们试图在模型内部电路中识别出区分正确推理与逻辑错误的结构特征。跨Python、C++和Java的分析证实,内在正确性信号在不同语法体系中具有稳健性。从这些内部图提取的拓扑特征比表面启发式方法更能可靠预测正确性,并能实现针对性因果干预以修正错误逻辑。这些发现确立了内部自省作为验证生成代码的可解码属性。代码已开源:https://github.com/bruno686/CodeCircuit。
人工智能的发展可被视为数据驱动学习范式的演进过程,数据组织与利用方式的迭代持续推动着模型能力的进步。当前大语言模型研究主要依赖数据规模单向扩张的范式,日益面临数据可用性、获取成本与训练效率的瓶颈。本文提出通用人工智能发展正进入数据-模型协同演进的新阶段:模型主动指导数据管理,高质量数据反哺模型能力提升。为实现这一愿景,我们设计了支持异构学习目标与成本约束的全周期大模型训练的分层数据管理框架。具体而言,我们构建了L0-L4五级数据管理体系,涵盖原始未筛选资源到可验证的知识体系。该框架的核心在于充分发挥大模型在数据质量管理(如质量评分、内容编辑等)中的作用,实现跨层数据精炼。每个层级具有独特的数据属性、管理策略与训练角色,支持数据在预训练、中期训练和对齐等阶段进行战略性配置。该框架通过平衡数据质量、获取成本与边际训练收益,为可扩展的可持续数据管理提供系统化解决方案。我们通过实证研究验证框架有效性:从原始语料构建分层数据集并应用于多阶段训练。实验结果表明,分层数据利用能显著提升训练效率与模型性能。为促进相关研究,我们向社区开源分层数据集与处理工具。
强化学习在人形机器人控制领域应用广泛,其中同策略方法(如近端策略优化)通过大规模并行仿真实现了鲁棒训练,并在某些场景下可零样本部署至真实机器人。然而,同策略算法的低样本效率限制了其在新环境中的安全适应能力。尽管异策略强化学习和基于模型的强化学习已展现出更高的样本效率,但人形机器人领域的大规模预训练与高效微调之间仍存在差距。本文发现,采用大批量更新和高更新数据比的异策略软演员-评论家算法能够可靠地支持人形机器人运动策略的大规模预训练,实现真实机器人的零样本部署。在适应能力方面,我们证明这些经过SAC预训练的策略可在新环境和分布外任务中通过基于模型的方法进行微调。新环境中的数据收集采用确定性策略执行,而随机探索则被限制在物理信息世界模型中进行。这种分离机制既降低了适应过程中随机探索的风险,又保持了改进所需的探索覆盖度。总体而言,该方法将预训练阶段大规模仿真的时间效率与微调阶段基于模型学习的样本效率有机结合。
我们推出MotionCrafter——一个基于视频扩散的框架,能够从单目视频中联合重建四维几何并估计稠密运动。该方法的核心在于提出了一种在共享坐标系下联合表示稠密三维点云与三维场景流的新范式,以及一个能有效学习该表征的新型四维变分自编码器。与先前研究强制三维数值和潜变量严格对齐RGB-VAE潜空间(尽管二者分布本质不同)的做法不同,我们证明这种对齐并无必要且会导致次优性能。为此,我们引入了新的数据归一化和VAE训练策略,更好地迁移扩散先验知识,显著提升了重建质量。在多数据集上的大量实验表明,MotionCrafter在几何重建与稠密场景流估计方面均达到最先进水平,几何重建和运动重建精度分别提升38.64%和25.0%,且无需任何后优化处理。项目页面:https://ruijiezhu94.github.io/MotionCrafter_Page
近年来,虽然语音合成技术发展迅猛,但开源歌唱合成系统在工业级部署中仍面临重大挑战,尤其在鲁棒性与零样本泛化能力方面。本报告推出SoulX-Singer——一款基于实际部署考量设计的高质量开源歌唱合成系统。该系统支持基于符号乐谱(MIDI)或旋律表征的可控歌声生成,可在真实生产流程中实现灵活且富有表现力的控制。经过超过4.2万小时人声数据训练,该系统支持中文普通话、英语及粤语,并在多样化音乐场景下持续实现跨语言的顶尖合成质量。此外,为在实际场景中实现零样本歌唱合成性能的可靠评估,我们构建了具有严格训练-测试数据分离特性的专用基准数据集SoulX-Singer-Eval,为零样本场景下的系统化评估提供支持。
实现稳定且高能效的运动是人形机器人在现实应用中持续运行的关键。现有模型预测控制(MPC)和强化学习(RL)方法通常将能耗相关指标嵌入多目标优化框架,这需要大量超参数调优且易导致策略次优化。为解决这些问题,我们提出能量约束优化(ECO)框架,该约束强化学习方法将能耗指标从奖励函数中分离,重构为显式不等式约束。该方法为能耗成本提供了清晰可解释的物理表征,通过更高效直观的超参数调优提升能效。ECO通过拉格朗日法分别对能耗和参考运动施加专用约束,实现人形机器人稳定、对称、高能效的行走。我们在儿童尺寸人形机器人BRUCE上进行了仿真到仿真、仿真到实物的对比实验,结果表明相较于MPC、标准奖励塑形RL及四种先进约束RL方法,ECO在保持稳健步态性能的同时显著降低了能耗。这些成果标志着人形机器人能效运动控制取得重大进展。所有实验演示详见项目网站:https://sites.google.com/view/eco-humanoid。
奖励模型(RMs)对大语言模型(LLMs)的训练至关重要,但传统方法通常依赖大规模人工标注的偏好对。随着LLMs的广泛部署,真实场景下的用户交互已成为隐式奖励信号的丰富来源。这引出一个关键问题:能否直接基于真实交互数据构建奖励模型?本研究通过采用WildChat作为交互数据源,提出一套从用户反馈中提取可靠人类偏好的流程,无需偏好对即可通过序数回归方法直接利用用户反馈训练WildReward模型,最终获得18.6万高质量训练实例。大量实验表明,WildReward在性能上达到甚至超越传统奖励模型,同时具备更优的校准特性和跨样本一致性。研究还发现,WildReward可直接受益于用户多样性——用户基数越大,奖励模型性能越强。最终,我们将WildReward应用于在线DPO训练,在多项任务中观察到显著性能提升。代码与数据已发布于https://github.com/THU-KEG/WildReward。
基于可验证奖励的强化学习(RLVR)已成为增强大语言模型(LLM)推理能力的关键方法。然而,持续训练常导致策略熵崩溃,其特征是熵值快速衰减引发过早过度自信、输出多样性降低,以及抑制学习的梯度范数消失。梯度保持裁剪是影响这些动态变化的主要因素,但现有缓解策略多为静态方案,缺乏将裁剪机制与精确熵控制相连接的理论框架。本文从梯度保持裁剪的角度重构强化学习中的熵控制机制。我们首先从理论和实验上验证了特定重要性采样比区域对熵增与熵减的贡献。基于这些发现,我们提出了一种采用动态裁剪阈值的新型调控机制,以实现精确的熵管理。此外,我们设计并评估了动态熵控制策略,包括"先增后减"、"减-增-减"和"振荡衰减"模式。实验结果表明,这些策略能有效缓解熵崩溃现象,并在多个基准测试中取得更优性能。
大型推理模型中的测试时计算分配被广泛应用于数学问题求解、代码合成和规划等领域。近期研究通过扩展自洽性与并行思维、添加通用"思考标记"以及提示模型在作答前重读问题来解决该问题。然而这些方法要么注入与任务无关的标记,要么强制采用无法解释——且常常忽略——许多大型推理模型在内部推理链开头自发重复现象的启发式策略。与此相反,我们分析并利用模型重述问题的倾向(称之为提示回响/EOP),将其作为前置的计算塑形机制。通过将回响消除视为基于拒绝的条件化处理,并定义可计算的代理指标"回响似然间隙ΔL",我们形式化地量化了其概率成本。这为早期重复现象与似然增益及下游准确率之间建立了缺失的理论联系。但该理论本身并未阐明如何利用EOP。因此我们开发了回响蒸馏监督微调(ED-SFT),通过监督微调植入"先回响后推理"模式;同时提出回响提示法(EP),无需训练即可在推理过程中重新锚定模型。尽管前景可观,量化回响超越冗余性的实际效益仍非易事。为此我们进行了长度与后缀受控的似然分析,结合分层注意力研究,发现EOP能增强中间层对答案前缀的注意力,这与注意力重聚焦机制一致。在GSM8K、MathQA、Hendrycks-MATH、AIME24和MATH-500数据集上采用相同解码设置与计算预算的评估表明,该方法相较基线模型获得稳定提升。代码已开源:https://github.com/hhh2210/echoes-as-anchors。
智能体系统通常在任务交互式环境基准测试中进行评估。多数研究采用每项任务单次运行的pass@1分数作为性能指标,并假设其能可靠反映真实水平。我们通过收集SWE-Bench-Verified平台上涵盖三种模型和两种框架的6万条智能体轨迹数据,对这一假设进行检验。结果发现显著方差:根据所选运行批次的不同,单次pass@1评估值会产生2.2至6.0个百分点的波动,即使在温度参数为0时标准差仍超过1.5个百分点。这种方差具有关键影响:文献中报告的2-3个百分点提升可能源于评估噪声而非真实算法进步。通过令牌级分析,我们发现轨迹在早期(通常在前百分之几的令牌处)即发生分化,这些微小差异会逐步累积形成不同的解决策略。为确保智能体系统评估的可靠性,我们建议三项具体实践:(1)基于每项任务的多次独立运行计算pass@1,尤其在测量微小改进时;(2)采用统计功效分析确定检测预期效应量所需的运行次数;(3)考虑使用k>1的pass@k(乐观边界)与pass^k(悲观边界)等指标,以更全面刻画性能边界。虽然这些实践会增加评估成本,但对于区分真实科学进展与统计噪声至关重要。
分词是形态丰富语言(如土耳其语)神经语言建模的关键设计选择,这类语言的能产性黏着特性对词汇效率与形态保真度构成双重挑战。现有研究虽探索了分词器家族与词汇量规模,但普遍存在三大局限:(i) 变更词汇量时未系统控制分词器训练语料;(ii) 缺乏细粒度内在诊断指标;(iii) 下游任务评估范围狭窄。我们首次对土耳其语子词分词展开系统化研究,提出"子词宣言"框架:通过联合调控词汇量与分词器训练语料规模(数据与词汇耦合),在参数预算匹配条件下比较多种分词器家族(WordPiece、形态级分词器与字符基线),并在语义(自然语言推理、语义文本相似度、情感分析、命名实体识别)、句法(词性标注、依存解析)及形态敏感探针任务上进行综合评估。为解析分词器成败根源,我们开发了形态感知诊断工具包,突破粗粒度聚合指标局限,引入边界级微观/宏观F1、解耦的词干原子性与表层边界命中率、过/欠分割指数、字符/词语编辑距离、接续率、词缀类型覆盖度及词例级原子性等多维指标。本研究的四重贡献在于:(i) 系统探索词汇-语料-性能三元关系;(ii) 建立连接内在诊断与外在性能的统一形态评估框架;(iii) 通过受控实验明确字符级与形态级分词器的优势场景;(iv) 开源评估代码、分词流水线及模型。作为该领域开创性工作,本"子词宣言"为形态丰富语言构建高效分词器提供了可操作的指导原则,并为未来研究奠定了可复现的基础。
情感理解是构建社会智能体的关键。尽管当前多模态大语言模型在此任务上表现优异,但仍面临两大挑战:情绪与无关视听线索的伪关联问题,以及语言模型主干中文本先验驱动的视听线索幻觉。为量化并解析这些问题,我们提出EmoReAlM基准测试,用于评估多模态大模型在线索-情绪关联、幻觉现象及模态一致性方面的表现。进而我们提出AVEm-DPO偏好优化技术,使模型响应与视听输入及情绪中心查询对齐。具体而言,我们基于文本提示构建了对存在伪关联或幻觉的响应偏好,以及视听输入对的偏好选择。同时引入正则化项以惩罚对文本先验的依赖,从而缓解特定模态线索的幻觉问题。在DFEW、RAVDESS和EMER数据集上的实验表明,本方法使基线模型的零样本性能获得6-19%的相对提升。通过提供严谨的基准测试与鲁棒的优化框架,本研究为情感理解与社会人工智能领域的多模态大模型奠定了系统化评估与改进的基础。代码、模型及基准测试数据将于https://avere-iclr.github.io发布。
近期专家混合架构的研究进展表明,可通过共享基础模型实现专家模型的联邦式独立训练。但我们提出假设:并非所有领域都需要全参数专家模型,低秩适配器可能已足够胜任。本文提出FlexMoRE——一种支持秩异构专家的灵活混合架构,其专家组件既可以是全参数模型,也可以是适当秩的适配器。我们通过评估6种不同秩(2^0至2^14)的专家模型,系统性地研究了专家秩与下游任务性能的权衡关系,共完成150组混合实验(含96组双专家混合、54组七专家混合),覆盖120项任务。实验基于FlexOlmo框架,将其预训练专家转换为低秩版本。专家秩与任务性能的回归分析表明:推理密集型任务的最佳秩显著高于知识密集型任务。这种秩敏感性发现直接关联内存效率——采用最优秩配置的FlexMoRE在参数量不足基线三分之一(107.5亿参数 vs 332.7亿参数)的情况下,下游任务平均得分(47.18)超越全参数专家混合的FlexOlmo基线(45.46)。所有代码将公开提供。
现代语言模型(LM)往往会对训练数据进行记忆并逐字输出片段。当底层数据源涉及敏感内容或受版权保护时,此类复现行为会引发创作者授权与补偿问题,并为开发者带来合规风险。我们提出锚定解码(Anchored Decoding)——一种即插即用的推理阶段抑制逐字复制的方法:通过将生成内容约束在经宽松许可训练的安全LM的邻近范围内,该方法可实现基于混合许可数据训练的任何风险LM的安全解码。锚定解码在生成轨迹上自适应分配用户设定的信息预算,并通过每步约束实现序列级保证,从而达成可调控的风险-效用平衡。为使锚定解码具备实用价值,我们新训练了采用宽松许可的安全模型TinyComma(1.8B参数),并推出锚定字节解码(Anchored_{Byte} Decoding)——通过ByteSampler框架(Hayase等,2025)实现跨词表融合的字节级变体。我们在六组模型对上针对版权风险与效用进行长文本评估,结果显示锚定解码与锚定字节解码定义了新的帕累托前沿:在保持接近原始流畅度与事实准确性的同时,以可接受的推理开销将风险基线模型与安全参考模型之间的可测量复制差距(基于六项复制指标平均)最高降低75%。
大型语言模型依赖键值缓存(kv-cache)来避免自回归解码过程中的冗余计算,但随着上下文长度增加,缓存的读写操作会迅速达到GPU内存带宽上限。近期研究虽已探索键值缓存压缩技术,但多数方法忽略了缓存的数据依赖性特征及其在不同网络层间的差异性。我们提出KV-CoRE(基于秩评估的键值缓存可压缩性),这是一种基于奇异值分解(SVD)的方法,用于量化键值缓存中数据相关的低秩可压缩性。该方法通过弗罗贝尼乌斯范数计算最优低秩近似,且无需梯度计算并支持增量处理,可实现高效的数据集级分层评估。基于此方法,我们分析了涵盖五大英语领域和十六种语言的多类模型与数据集,揭示了可压缩性与模型架构、训练数据及语言覆盖范围之间的系统性关联规律。在此分析过程中,我们采用归一化有效秩作为可压缩性度量指标,并证明其与压缩下的性能衰减高度相关。本研究建立了键值缓存可压缩性的理论评估框架和首个大规模基准测试,为动态感知数据的压缩技术和以数据为中心的模型开发提供了新思路。
多向量延迟交互检索器(如ColBERT)虽能实现顶尖的检索质量,但其查询时成本主要消耗在对每个候选文档进行详尽的词元级MaxSim交互计算。虽然采用单向量表示近似延迟交互可降低成本,但往往导致准确率显著下降。我们提出Col-Bandit算法,通过将重排序建模为有限总体Top-K识别问题,在查询时进行剪枝以减轻计算负担。该算法基于部分观测的文档分数维护不确定性感知边界,并自适应地仅揭示满足统计决策边界所需的(文档,查询词元)MaxSim条目,在可调松弛度下确定最优结果。与离线剪枝整个文档或词元的粗粒度方法不同,Col-Bandit实时稀疏化交互矩阵。该算法作为标准多向量系统的零样本即插即用层,无需修改索引、离线预处理或模型重训练。在文本(BEIR)和多模态(REAL-MM-RAG)基准测试表明,Col-Bandit在将MaxSim浮点运算量降低至多5倍的同时保持排序保真度,证明稠密延迟交互评分存在显著冗余,可在查询时被有效识别并剪枝。
智能体技能通过可复用的类程序模块扩展了大语言模型(LLM)智能体的能力,这些模块定义了触发条件、程序逻辑及工具交互。随着此类技能在公共市场的激增,其类型分布、用户采用模式及潜在风险尚不明确。为探究这些问题,我们对某主流市场的40,285个公开技能进行了大规模数据驱动分析。研究发现:技能发布呈现与社区关注度变化同步的短期爆发趋势;技能内容高度集中于软件开发工作流,而信息检索与内容创作类技能占据实际采用的重要份额。除内容趋势外,我们发现了显著的类别供需失衡现象,并证明尽管技能长度呈重尾分布,大多数仍处于典型提示预算范围内。最后,我们观察到生态系统存在高度同质化,意图级冗余普遍存在,同时识别出不容忽视的安全风险——包括支持状态变更或系统级操作的技能。总体而言,本研究为智能体技能这一新兴基础设施层提供了量化图谱,为未来技能复用、标准化及安全感知设计的研究奠定了基础。
偏微分方程在建模物理、生物及图形现象方面具有精确性,但数值方法仍面临维度灾难、计算成本高昂和领域特定离散化等挑战。本研究旨在系统探讨不同PDE求解器的优劣,并将其应用于具体科学模拟问题,包括正问题求解、反问题求解及方程发现。特别地,我们将近期提出的CNF(NeurIPS 2023)框架求解器扩展至多因变量与非线性场景,并开发下游应用。研究成果涵盖选定方法的实现、自适应调参技术、基准问题评估,以及对神经PDE求解器与科学模拟应用的全面综述。
检索增强生成技术虽能提升大语言模型在知识密集型任务中的推理能力,但现有RAG流程应用于大规模实体匹配时存在显著的检索与生成开销。为突破此局限,我们提出CE-RAG4EM——一种基于分块批处理检索与生成的高效RAG架构。同时建立统一分析框架,重点从分块感知优化和检索粒度两个维度评估实体匹配中的RAG系统。大量实验表明,相较于强基线模型,CE-RAG4EM在保持相当或更优匹配质量的同时,能显著降低端到端运行时间。进一步分析揭示,关键配置参数在性能与开销间存在固有权衡,这为设计高效可扩展的实体匹配及数据集成RAG系统提供了实践指导。
我们推出Aster——一款用于自主科学发现的人工智能代理,其运行速度可达现有框架的20倍以上。给定任务、初始程序及性能评估脚本后,Aster能持续迭代优化程序,往往能实现新的最先进性能。该框架将新发现所需迭代次数显著减少,使得可处理问题领域扩展至包含长评估周期的任务(例如耗时数小时的机器学习训练)。 我们将Aster应用于数学、GPU内核工程、生物学、神经科学及语言模型训练等领域。具体包括:埃尔德什最小重叠问题、TriMul内核优化、单细胞分析去噪问题、训练神经活动预测模型以在ZAPBench上取得优异表现,以及NanoGPT速通竞赛。除ZAPBench任务中仅用不到1/190的计算量即达到最佳人工解决方案水平外,Aster在其他所有任务中均实现了最先进成果。 用户可通过asterlab.ai的网页界面与API访问Aster平台。
大型语言模型(LLMs)有望通过不断扩展的科学领域进行推理来加速科学发现。然而,当前的挑战已不再是信息获取,而是如何以具有意义的、跨领域的方式建立信息关联。在材料科学领域,创新需要整合从分子化学到机械性能的多维度概念,这一挑战尤为突出。无论是人类研究者还是单智能体LLMs都难以完全应对这种信息洪流,后者还常常出现幻觉问题。为突破这一瓶颈,我们提出了一种基于大规模知识图谱的多智能体框架,用于寻找全氟和多氟烷基物质(PFAS)的可持续替代品——这类化学物质正面临严格的监管审查。该框架中的智能体分别专注于问题分解、证据检索、设计参数提取和图谱遍历,通过发掘不同知识模块间的潜在联系来支持假设生成。消融实验表明,完整的多智能体流程优于单次提示方式,印证了分布式专业化与关联推理的价值。我们证明,通过定制图谱遍历策略,系统可在聚焦领域关键结果的利用性搜索与发现新兴跨领域连接的探索性搜索之间灵活切换。以生物医学导管为例,该框架成功生成了一系列平衡摩擦学性能、热稳定性、耐化学性与生物相容性的可持续无PFAS替代方案。本研究建立了知识图谱与多智能体推理相结合的材料设计新范式,并通过多个初步设计方案验证了该方法的可行性。
文本嵌入技术虽赋能众多自然语言处理应用,却面临嵌入反演攻击带来的严重隐私风险,可能导致敏感属性泄露或原始文本重构。现有差分隐私防御方案假设嵌入维度具有均匀敏感性,致使噪声添加过量且效用受损。我们提出SPARSE这一面向用户的文本嵌入概念级隐私保护框架,其融合两大创新:(1) 通过可微分掩码学习识别用户自定义概念的隐私敏感维度;(2) 采用马氏机制施加基于维度敏感度校准的椭球形噪声。相较于传统球面噪声注入方法,SPARSE选择性地扰动隐私敏感维度,同时保留非敏感语义。在六大数据集、三种嵌入模型及多类攻击场景下的评估表明,SPARSE在持续降低隐私泄露风险的同时,其下游任务性能显著优于当前最先进的差分隐私方法。
最新研究表明,偏好对齐目标可视为对齐(被选)与未对齐(被拒)响应分布之间的散度估计量。本研究将这种基于散度的视角拓展至通用对齐场景,例如仅存在环境奖励的可验证奖励强化学习(RLVR)场景。在此统一框架下,我们基于f-散度的变分表示提出了两类方法:适用于通用大语言模型对齐的f-群组相对策略优化(f-GRPO)——一种在线策略强化学习算法,以及f-混合对齐损失(f-HAL)——融合在线/离线策略的混合目标函数。理论分析证明,这些目标函数类能在对齐后提升平均奖励。在RLVR(数学推理)和偏好对齐(安全对齐)任务上的实证结果表明,相较于现有方法,该框架具有更优异的性能与灵活性。
我们首次在经验过程理论基础上实现了统计学习理论(SLT)的完整Lean 4形式化。该端到端的形式化基础设施填补了最新Lean 4 Mathlib库的空白,包含高斯利普希茨集中性的完整推导、达德利熵积分定理在次高斯过程中的首次形式化,以及带有尖锐收敛速率的最小二乘(稀疏)回归应用。项目采用人机协同工作流完成:人类设计证明策略,智能体执行战术性证明构建,最终形成经过人工验证的SLT工具箱。除实现外,形式化过程还揭示并修正了标准SLT教材中隐含的假设与缺失细节,推动了对理论逐行级的精细化理解。此项工作建立了可复用的形式化基础,为机器学习理论的未来发展开辟了道路。代码详见https://github.com/YuanheZ/lean-stat-learning-theory。
通用多模态检索(UMR)致力于实现文本与视觉间的任意模态互搜,但现代嵌入模型在面对需要潜在推理的查询(如解析未明确指代或匹配组合约束)时仍显脆弱。我们认为这种脆弱性常源于数据缺陷:当图像携带"隐性"证据且查询隐含关键语义时,单次嵌入过程需同时完成推理与压缩,易导致伪特征匹配。为此提出以数据为中心的解决方案,通过将推理过程外化至检索前阶段实现角色解耦。利用强视觉-语言模型对语料库条目中的视觉证据进行密集描述,解析查询中模糊的多模态指代,并将冗长指令重写为简洁的检索约束,从而使隐性语义显性化。仅靠推理时增强并不足够,检索器必须在经过语义强化的表征上进行训练,以规避分布偏移并充分挖掘新增信号。在M-BEIR基准测试中,我们的推理增强训练方法较基线模型取得稳定提升,消融实验表明:语料增强主要惠及知识密集型查询,而查询增强对组合式修改请求至关重要。代码已开源:https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval。
鱼群集体运动展现了活性物质系统中涌现的自组织现象,但当前用于模拟和分析这些动力学过程的计算工具仍分散于不同研究团队。我们推出dewi-kadita——一个开源Python库,该库实现了基于库津区域的三维模型,并配备了专为海洋集体行为研究定制的综合熵诊断工具。该库引入七种信息论度量指标(鱼群凝聚熵、极化熵、深度分层熵、角动量熵、最近邻熵、速度关联熵及鱼群形态熵),可表征经典序参数无法揭示的独特组织特征。这些指标融合成"海洋集群指数"(OSI),提供衡量集体无序性的单一标量值。在四种典型构型(集群态、环面态、动态平行态、高度平行态)中的验证表明:该库能准确复现已知相行为——集群态维持无序性(极化度P < 0.1,OSI约0.71),而高度平行态实现P=0.998且OSI=0.24,速度关联熵趋近于零。熵框架成功区分了序参数值相近但组织机制不同的环面态与动态平行态。通过Numba即时编译技术,成对相互作用计算速度提升10-100倍,可在标准工作站硬件上五分钟内完成150-250个智能体超过1000-2000步的模拟。NetCDF4输出格式确保了与海洋学分析工具的互操作性。该库填补了集体行为建模领域对标准化、可复现基础架构的需求,其意义堪比成熟的分子动力学代码。
因果发现对于推动科学AI与数据分析等数据驱动领域的发展至关重要,但现有方法在扩展至大规模图结构时面临显著的时间与空间效率瓶颈。为解决这一挑战,我们提出CauScale——一种专为高效因果发现设计的神经架构,可将推理规模扩展至包含1000个节点的图结构。CauScale通过降维单元压缩数据嵌入提升时间效率,并采用绑定注意力权重避免维护轴向特定注意力图谱以优化空间效率。为保持高精度因果发现能力,该架构采用双流设计:数据流从高维观测值中提取关系证据,图流则整合统计图先验并保留关键结构信号。在训练阶段,CauScale成功扩展至500节点图结构,而现有方法因空间限制无法实现。在不同图规模与因果机制的测试数据中,CauScale在分布内数据上达到99.6%的平均精度(mAP),分布外数据上达到84.4%,同时推理速度较现有方法提升4至13000倍。项目页面详见https://github.com/OpenCausaLab/CauScale。