每日精选AI研究论文及翻译
世界模型作为人工智能领域的重要研究方向备受关注,但目前仍缺乏清晰统一的定义。本文提出OpenWorldLib——一个面向先进世界模型的标准化综合推理框架。基于世界模型的发展脉络,我们给出明确定义:世界模型是以感知为核心、具备交互与长期记忆能力,用于理解和预测复杂世界的模型或框架。我们进一步系统化梳理了世界模型的核心能力体系。基于该定义,OpenWorldLib将不同任务领域的模型整合至统一框架,实现高效复用与协同推理。最后,我们对世界模型研究的未来发展方向提出了进一步思考与分析。代码链接:https://github.com/OpenDCAI/OpenWorldLib
当前文档解析方法主要围绕模型架构创新展开竞争,而训练数据的系统性工程仍待深入探索。然而我们发现,不同架构和参数规模的SOTA模型在同一组困难样本上表现出高度一致的错误模式,这表明性能瓶颈源于训练数据的共同缺陷而非架构本身。基于此发现,我们提出\minerupro方法——在完全固定1.2B参数架构的前提下,仅通过数据工程与训练策略优化实现性能突破。其核心是围绕覆盖度、信息量与标注精度协同设计的数据引擎:多样性-难度感知采样将训练数据从不足1000万扩展至6550万样本并修正分布偏移;跨模型一致性验证利用异构模型的输出共识评估样本难度并生成可靠标注;判决-优化流水线通过"渲染-验证"迭代修正提升困难样本的标注质量。我们采用三阶段渐进式训练策略——大规模预训练、困难样本微调与GRPO对齐——依次利用不同质量层级的数据。在评估层面,我们修正了OmniDocBench~v1.5中的元素匹配偏差并引入困难子集,建立更具区分度的OmniDocBench~v1.6基准。在零架构改动条件下,\minerupro在OmniDocBench~v1.6上达到95.69分,较同架构基线提升2.71分,超越包括参数量超其200倍的所有现有方法。
视觉-语言-动作(VLA)模型通过利用预训练的视觉-语言骨干网络,在机器人操作任务中展现出强大性能。然而,在下游机器人应用场景中,这些模型通常仅使用有限数据进行微调,导致其过度适应特定指令表述,而对改写指令的鲁棒性研究尚不充分。为探究这一缺陷,我们提出LIBERO-Para基准测试框架,通过独立控制动作表达与物体指称的变体,实现语言泛化能力的细粒度分析。在七种VLA模型配置(0.6B-7.5B参数规模)的测试中,我们观察到模型在指令改写场景下出现22-52个百分点的性能一致性下降。这种退化主要源于物体级词汇变异:即使是简单的同义词替换也会导致性能大幅下滑,表明模型依赖表层匹配而非语义 grounding。值得注意的是,80-96%的失败案例源于规划层面的轨迹分歧而非执行错误,这说明指令改写干扰了任务识别过程。传统二元成功率指标将所有改写指令等量齐观,无法区分模型是在不同难度级别表现一致还是依赖简单案例。为此,我们提出PRIDE评估指标,通过语义和句法因子量化改写难度。本基准测试框架及对应代码已开源:https://github.com/cau-hai-lab/LIBERO-Para
大型语言模型(LLM)中的扩展推理会引发严重的KV缓存内存瓶颈。主流的KV缓存压缩方法通过最近的后RoPE查询的注意力分数来估计KV重要性。然而,查询在RoPE过程中会随位置旋转,导致代表性查询极少,进而造成关键键选择效果差且推理不稳定。为规避此问题,我们转向预RoPE空间,在此观察到Q和K向量高度集中于固定的非零点附近,且在不同位置上保持稳定——即Q/K集中现象。我们证明这种集中会导致查询优先关注特定距离的键(如最近邻键),其集中中心通过三角级数决定偏好的距离。基于此,我们提出TriAttention方法,利用这些集中中心来估计键重要性。通过三角级数,我们使用集中中心表征的距离偏好对键进行位置评分,并同时利用Q/K范数作为重要性估计的辅助信号。在生成32K令牌的AIME25任务中,TriAttention在实现2.5倍吞吐量提升或10.7倍KV内存压缩的同时,匹配了全注意力机制的推理精度,而主流基线方法在同等效率下仅能达到约一半的精度。TriAttention使得OpenClaw模型可部署于单张消费级GPU,而长上下文场景下若采用全注意力机制则会导致内存溢出。
尽管文本频率已被证实与人类阅读速度的认知过程相关,但其与大型语言模型(LLMs)的关联性却鲜有研究。据我们所知,本文首次从文本数据频率这一尚未被充分探索的角度提出了新的研究方向。我们的框架包含三个核心模块:首先,本文提出文本频率定律(TFL),指出在LLMs的提示构建和微调过程中应优先使用高频文本数据。鉴于多数LLMs的训练数据未公开,我们建议通过在线资源估算句子级频率,并利用输入改写器将原始输入转化为更高频的文本表达。其次,我们提出文本频率蒸馏(TFD)方法,通过要求LLMs对数据集中的句子进行故事续写以扩展语料,并利用生成结果修正初始频率估计。最后,我们设计课程式文本频率训练(CTFT),按照句子频率由低到高的顺序对LLMs进行渐进式微调。我们在自建的文本频率配对数据集(TFPD)上进行了数学推理、机器翻译、常识推理和智能体工具调用实验,结果验证了该框架的有效性。
视频大语言模型(VideoLLMs)已在多项视频理解任务中展现出卓越性能,但现有系统大多为离线模式,难以适应需要持续观察与实时响应的直播视频流。尽管近期流式视频大语言模型取得进展,当前方案仍常依赖解耦的触发-响应流程,或局限于字幕式旁播,限制了其在开放式问答和长程交互中的效能。我们提出AURA(全时感知与实时辅助)——一种端到端的流式视觉交互框架,使统一视频大语言模型能持续处理视频流,同时支持实时问答与主动响应。AURA整合了上下文管理、数据构建、训练目标及部署优化,确保长程流式交互的稳定性。该框架在流式基准测试中达到最先进性能,并支持集成语音识别与合成的实时演示系统,可在双80G加速器上以2帧/秒的速度运行。我们同步开源AURA模型及实时推理框架,以促进未来研究。
图像空间编辑通过几何驱动的变换实现,能够精确控制物体布局与相机视角。现有模型难以胜任细粒度空间操控,这促使我们构建专用评估体系。我们的贡献包括:(i) 提出SpatialEdit-Bench综合基准,通过视角重建与构图分析联合度量感知合理性与几何保真度,全面评估空间编辑能力;(ii) 针对可扩展训练的数据瓶颈,构建SpatialEdit-500k合成数据集——采用可控Blender管线生成,在多样化背景中渲染物体并系统化采集相机轨迹,为物体中心与相机中心操作提供精确的真值变换;(iii) 基于此数据开发SpatialEdit-16B基线模型,实现细粒度空间编辑。该方法在通用编辑任务中表现具有竞争力,并在空间操控任务上显著超越现有方法。所有资源将开源于https://github.com/EasonXiao-888/SpatialEdit。
作为持久化助手部署的AI智能体,必须在其信息环境演变过程中保持正确的信念认知。实践中,证据往往分散在相互矛盾的异构信息源中,新信息可能推翻先前结论,而用户偏好通常通过修正行为而非明确指令显现。现有基准测试大多基于静态单信源设定,未能评估智能体能否应对这种复杂性。我们推出ClawArena基准测试框架,用于评估AI智能体在动态信息环境中的表现。每个场景都包含完整的隐藏事实真相,而智能体仅能通过多通道会话、工作区文件和阶段性更新接触带有噪声、不完整且时而矛盾的痕迹线索。评估围绕三大耦合挑战展开:多源冲突推理、动态信念修正和隐性个性化,其相互作用形成了包含14类问题的分类体系。通过多选题(集合选择)和基于命令行的可执行检查两种题型,同时检验推理能力与工作区落地效果。当前版本涵盖8个专业领域的64个场景,包含1,879次评估轮次和365次动态更新。对五种智能体框架和五种语言模型的实验表明:模型能力(15.4%差异区间)与框架设计(9.2%差异)均显著影响性能,自演进技能框架可部分弥补模型能力差距,且信念修正难度取决于更新设计策略而非单纯更新频次。代码已发布于https://github.com/aiming-lab/ClawArena。
基于本地文件系统协同工作的AI智能体正迅速成为人机交互的新范式,但严格的数据限制导致有效个性化仍面临挑战——隐私壁垒与多模态现实行为轨迹的联合采集困难阻碍了可扩展的训练与评估,现有方法仍以交互为中心而忽视了文件系统操作中的密集行为轨迹。为此,我们提出FileGram框架,将智能体记忆与个性化能力锚定于文件系统行为轨迹,该框架包含三个核心组件:(1)FileGramEngine可扩展人设驱动数据引擎,能模拟真实工作流并生成细粒度多模态操作序列;(2)FileGramBench基于文件系统行为轨迹的诊断基准,支持档案重建、轨迹解耦、人设漂移检测和多模态 grounding 四项记忆系统评估任务;(3)FileGramOS自底向上的记忆架构,直接从原子操作与内容增量(而非对话摘要)构建用户画像,通过程序性、语义性和情景性三通道编码轨迹,并支持查询时抽象处理。大量实验表明,FileGramBench对当前最先进的记忆系统仍具挑战性,FileGramEngine与FileGramOS均表现优异。通过开源此框架,我们期望为个性化记忆中心型文件系统智能体的后续研究提供支持。
大语言模型在复杂推理任务中表现出色,但其效率受限于冗长思维轨迹带来的激增认知负荷。本文提出LightThinker方法,使大语言模型能够将中间思维动态压缩为紧凑的语义表征。然而静态压缩方法在复杂推理中常面临挑战,中间细节的不可逆损失可能导致逻辑瓶颈。为此,我们升级框架至LightThinker++,引入显式自适应记忆管理机制。该范式通过集成显式记忆原语转向行为级管理,并辅以专门设计的轨迹合成流程来训练目标导向的记忆调度策略。大量实验证明该框架具有三维度优势:(1)LightThinker在精度损失最小化前提下,峰值令牌使用量降低70%,推理时间缩短26%;(2)在标准推理任务中,LightThinker++在同等上下文预算下实现峰值令牌使用量下降69.9%,同时准确率提升2.42%;(3)在长周期智能体任务中表现尤为突出,模型在超过80轮交互后仍保持稳定内存占用(降低60%-70%),在不同复杂场景下平均性能提升14.8%。本研究为持续开展深度大语言模型推理提供了可扩展的低开销解决方案。
可验证奖励的强化学习(RLVR)已成为大语言模型后训练的标准范式。虽然群体相对策略优化(GRPO)被广泛采用,但其粗粒度的信用分配机制对失败样本进行统一惩罚,缺乏有效纠正特定偏差所需的词元级关注。自蒸馏策略优化(SDPO)通过提供更密集、更具针对性的对数级监督来解决这一问题,能实现快速的早期改进,但在长期训练中经常崩溃。我们将这种后期不稳定性归因于两个固有缺陷:对已正确样本的自蒸馏会引入优化模糊性,且自我教师信号的可靠性会逐渐衰减。为此,我们提出样本路由策略优化(SRPO),这一统一在轨框架将正确样本路由至GRPO的奖励对齐强化模块,将失败样本路由至SDPO的定向对数级修正模块。SRPO进一步引入熵感知动态加权机制,抑制高熵值的不可靠蒸馏目标,同时强化置信度高的目标。在五个基准测试和两种模型规模上的评估表明,SRPO兼具SDPO的快速早期改进能力和GRPO的长期稳定性,其峰值表现持续超越两种基线方法——在Qwen3-8B模型上将五项基准平均得分较GRPO提升3.4%,较SDPO提升6.3%,同时生成适中长度的响应,并将单步计算成本最高降低17.2%。
在提升大语言模型生成代码准确性的前沿研究中,一个关键突破点在于解决其难以准确评估程序执行(尤其是对自生成代码的评估)的能力。本研究提出通过分步模拟程序执行来训练代码大语言模型,并将该能力应用于提升竞争性编程任务的表现。我们的方法融合了基于真实执行过程的自然语言执行轨迹监督微调,以及采用可验证奖励的强化学习。我们引入两个互补目标:给定代码和输入时的输出预测,以及利用真实执行反馈或自预测执行反馈解决竞争性编程问题。这些目标使模型能够对多个候选解决方案进行自我验证,并通过模拟测试执行实现迭代式自我修正。在多个竞争性编程基准测试中,该方法相较标准推理方式实现了持续改进。我们还通过消融实验与分析,揭示了执行模拟的作用机制及其局限性。
从经验中学习对于构建强大语言模型智能体至关重要,但现有自进化范式效率低下:智能体孤立学习,在有限经验中反复发现相似行为,导致重复探索和泛化能力差。为解决该问题,我们提出SkillX框架,通过全自动流程构建可跨智能体与环境复用的即插即用型技能知识库。该框架基于三项协同创新:(i) 多层级技能设计,将原始轨迹提炼为战略规划、功能技能和原子技能的三层架构;(ii) 迭代式技能优化,根据执行反馈自动修订技能以持续提升库质量;(iii) 探索式技能扩展,主动生成验证新技能以突破初始训练数据局限。基于强基座智能体(GLM-4.6),我们自动构建可复用技能库,并在AppWorld、BFCL-v3和τ²-Bench等长周期人机交互基准测试中验证其迁移性。实验表明,当SkillKB接入较弱基座智能体时,能持续提升任务成功率与执行效率,印证结构化分层经验表征对通用智能体学习的重要性。代码即将发布于https://github.com/zjunlp/SkillX。
要构建一个能够横跨图表解析、科学推理、空间理解及开放式任务的视觉推理系统需要哪些要素?当前最强的视觉语言模型(VLMs)已展现出实现这种广义视觉推理的潜力,但其构建方法仍不明确,被封闭的强化学习(RL)流程与非公开数据所垄断。我们推出Vero系列——一组完全开源的VLM模型,其在多样化视觉推理任务中的表现达到或超越了现有开源模型。我们通过扩展六大任务类别的RL数据与奖励机制,构建了包含59个数据集、60万样本规模的Vero-600K数据集,并设计了能处理异构答案格式的任务路由奖励函数。在包含30个挑战性基准测试的VeroEval评估体系中,Vero实现了最先进的性能,相较四个基础模型平均提升3.7-5.5个百分点。以Qwen3-VL-8B-Instruct为基础模型时,Vero在30个基准测试中的23个上超越了未使用额外专有思维数据的Qwen3-VL-8B-Thinking模型。当基于同一基础模型训练时,Vero-600K在所有任务类别上均优于现有RL数据集。系统性消融实验表明,不同任务类别会引发性质各异的推理模式,这些模式在孤立训练时迁移效果较差,说明广泛的数据覆盖才是推动RL扩展性能的主要驱动力。我们已全面公开所有数据、代码与模型。
2026年初部署最广泛的个人AI代理OpenClaw,在拥有完整本地系统访问权限的同时,深度集成Gmail、Stripe及文件系统等敏感服务。尽管这种宽泛的权限带来了高度自动化与强大个性化能力,但也暴露出传统沙箱评估无法捕捉的巨大攻击面。为填补这一空白,我们首次对OpenClaw进行实景安全评估,并提出CIK三维分类法——将智能体的持久状态统一划分为能力(Capability)、身份(Identity)与知识(Knowledge)三个维度进行安全分析。我们在运行中的OpenClaw实例上针对四款核心模型(Claude Sonnet 4.5/Opus 4.6/Gemini 3.1 Pro/GPT-5.4)展开12类攻击场景测试。结果显示:污染任一CIK维度可使平均攻击成功率从24.6%升至64-74%,即便最强模型的漏洞暴露程度也较基线增长逾三倍。我们进一步评估了三种CIK对齐防御策略及文件保护机制,发现最强防御在能力维度攻击下仍存在63.8%的成功率,而文件保护虽能拦截97%恶意注入,却会同时阻断合法更新。这些发现表明,此类漏洞深植于智能体架构之中,亟需建立更系统化的防护机制来保障个人AI代理安全。项目主页详见:https://ucsc-vlaa.github.io/CIK-Bench。
具有可验证奖励的强化学习(RLVR)能有效训练依赖大量完美标签的推理模型,但其在专家稀缺导致不可避免的噪声标签下的脆弱性仍未得到充分探索。本研究首次对RLVR中的噪声标签机制进行系统性分析。与监督分类不同,多数RLVR算法包含基于推演的判断条件:标签对训练的影响取决于当前策略能否生成实现该标签的推演轨迹,这一特性自然延伸至噪声标签。基于此,我们区分两类噪声:非活跃噪声标签会降低数据效率,而活跃噪声标签被强化后可能使模型偏向错误分布。通过噪声样本训练实验,我们发现早期正确一致性现象:尽管噪声样本在训练后期逐渐滞后,但早期阶段干净样本与噪声样本的准确率提升趋势相似。受此动态特性启发,我们提出在线标签优化方法(OLR),当满足两个条件时——多数投票答案的推演通过率呈正斜率且历史答案在迭代中保持稳定,该方法会逐步用多数投票答案修正潜在噪声标签,实现策略改进过程中的渐进式自校正。我们在六个同分布数学推理基准(AIME24/25、AMC、MATH-500、Minerva和Olympiad)和三个分布外任务(ARC-c、GPQA-diamond和MMLU-pro)上评估OLR。在0.1至0.9的噪声比例下,OLR在非活跃与活跃噪声标签设置中均持续提升模型鲁棒性,同分布基准平均提升3.6%至3.9%,分布外评估平均提升3.3%至4.6%。
通用多模态嵌入(UME)通过单一模型将异构输入映射到共享检索空间。现有方法通过在提取嵌入前生成显式思维链(CoT)推理依据来改进UME,使多模态大语言模型能更好推断复杂查询意图。然而显式CoT会带来巨大推理开销,并将丰富的多模态证据压缩至狭窄的文本瓶颈。我们提出PLUME——一种潜在推理框架,通过用连续潜在状态的短自回归推演替代语言化CoT来推进UME发展。为支持多样化多模态查询,PLUME进一步引入语义锚点引导的转移适配器,在相同固定计算预算下沿不同推理轨迹引导潜在状态推演。为稳定训练,PLUME采用渐进式显隐转换学习策略:仅将语言化推理作为临时训练支架,逐步将该行为迁移至隐状态计算,最终在推理时消除显式CoT。在包含78项任务的MMEB-v2基准测试中,PLUME在将推理过程从数百个生成标记缩减至不足10个潜在步骤的同时,性能超越强显式CoT基线,实现超过30倍的推理加速。PLUME特别适用于证据密集、结构复杂且难以通过语言化中间推理组织相关性的检索场景(如视频与视觉文档检索)。这些结果表明,结构化潜在计算可在避免显式推理生成开销的前提下保留中间推理优势,为实用检索系统提供更强效的范式。
测试时学习(TTL)使语言智能体能够通过在推理阶段与环境的反复交互来迭代优化其表现。TTL的核心在于一种自适应策略,该策略根据历史交互经验更新执行策略,从而改进后续行为。现有方法依赖于固定的人工设计自适应策略,而非针对下游性能优化进行策略调整。我们认为最优的自适应策略应从任务环境中学习获得,而非基于人类直觉手动设计。为实现这一目标,我们提出元测试时学习框架(Meta-TTL),将有效自适应策略的发现过程构建为双层优化问题。在该框架中,内层循环执行标准TTL流程,评估候选自适应策略帮助智能体在连续任务回合中纠正错误的有效性;外层循环则基于智能体表现,通过进化搜索在多样化训练任务分布上进行迭代优化。我们在Jericho和WebArena-Lite平台上采用多种元智能体基干模型,分别进行分布内(ID)和分布外(OOD)场景的评估。实验结果表明,Meta-TTL在两项基准测试中均持续优于人工设计的基线方法,证明优化后的自适应策略能够编码具有可迁移性的策略,其泛化能力超越训练任务分布范围。
深度研究智能体(DRA)将大语言模型推理与外部工具相融合。记忆系统使DRA能够利用历史经验,这对高效推理和自主进化至关重要。现有方法依赖从记忆中检索相似轨迹来辅助推理,但存在记忆进化低效、存储与检索成本递增的核心局限。为解决这些问题,我们提出新型记忆智能体(MIA)框架,采用管理器-规划器-执行器三层架构。记忆管理器作为非参数化记忆系统,可存储压缩后的历史搜索轨迹;规划器是参数化记忆智能体,能针对问题生成搜索方案;执行器则是在搜索方案引导下进行信息检索与分析的另一智能体。为构建MIA框架,我们首先采用交替强化学习范式增强规划器与执行器的协同能力。进一步使规划器在测试时学习过程中持续进化,实现推理过程中不中断思考的实时参数更新。同时建立参数化与非参数化记忆的双向转换循环,达成高效记忆进化。此外,通过引入反思机制和无监督判断机制,提升开放环境下的推理与自我进化能力。在十一个基准测试上的大量实验证明了MIA的优越性。
近期视觉语言模型(VLM)的进展显著拓展了视觉问答(VQA)的能力边界。然而,高分辨率细节有时会转化为干扰信息,导致模型产生幻觉或推理错误。本文提出降质驱动提示(DDP)框架,该创新方法通过策略性降低图像保真度,迫使模型聚焦于本质结构信息,从而提升VQA性能。我们在两项差异化任务中评估DDP:物理属性任务针对易引发人类误判的图像,DDP融合80%下采样、结构化视觉辅助(白色背景遮罩与正交投影线)及上下文学习(ICL)来校准模型关注点;感知现象任务则面向机器易感的视觉异常与错觉,包括视觉异常(VA)、颜色(CI)、运动(MI)、格式塔(GI)、几何(GSI)及视觉错觉(VI)。对此DDP引入任务分类阶段,并结合模糊遮罩、对比度增强等专用工具与下采样技术。实验结果表明“少即是多”:通过刻意降低视觉输入质量并提供靶向结构提示,DDP能使VLM有效规避干扰性纹理,在挑战性视觉基准测试中实现更优的推理精度。
近期视频基础模型(VFMs)的突破性进展彻底改变了以人物为中心的视频生成技术,但针对主体与场景的精细化独立编辑仍是关键挑战。现有通过刚性三维几何组合实现环境控制的尝试,往往面临精确控制与生成灵活性之间的尖锐矛盾。此外,繁重的三维预处理仍制约着实际应用的可扩展性。本文提出ONE-SHOT——一种参数高效的组合式人景视频生成框架。我们的核心思路是将生成过程分解为解耦信号:通过引入规范空间注入机制,利用交叉注意力实现人物动态与环境线索的分离;提出动态锚定RoPE位置编码策略,无需启发式三维对齐即可建立异构空间域的对应关系;针对长时序生成任务,设计混合上下文集成机制以保持分钟级生成中主体与场景的一致性。实验表明,本方法在视频合成领域显著超越现有最优方案,在结构控制与创意多样性方面均展现出卓越性能。项目地址:https://martayang.github.io/ONE-SHOT/。
在实际应用场景中,图像因模糊、噪点、压缩及光照不足导致的退化问题严重制约了多模态理解效果。将理解与生成功能整合于单一架构的统一多模态模型天然适合应对这一挑战——其生成路径能建模退化过程破坏的细粒度视觉结构。然而现有模型未能充分利用自身生成能力处理退化输入。我们发现这种脱节源于两个叠加因素:现有训练机制从未要求模型在推理过程中调用生成能力,且标准的"解码-再编码"路径无法支持有效的联合优化。本文提出CLEAR框架,通过三个渐进步骤连接两种能力:(1)在退化感知数据集上进行监督微调,建立"先生成后回答"的推理模式;(2)引入潜在表示桥接机制,用可优化的直接连接替代迂回的"解码-再编码"路径;(3)设计交错式GRPO强化学习方法,在答案正确性奖励下联合优化文本推理与视觉生成。我们构建了MMD-Bench评估基准,涵盖六大标准多模态测试集的三种退化严重程度。实验表明CLEAR在保持清晰图像性能的同时,显著提升了模型对退化输入的鲁棒性。进一步分析表明,去除像素级重建监督后产生的中间视觉状态具有更高感知质量,这揭示出任务驱动优化与视觉质量存在内在一致性。
我们提出了AvatarPointillist——一个从单张肖像图像生成动态4D高斯化身的创新框架。该方法的核心是仅含解码器的Transformer模型,它通过自回归方式为3D高斯泼溅生成点云。这种序列化方法实现了精准的自适应构建,能根据主体复杂度动态调整点密度与总点数。在点生成过程中,自回归模型还联合预测各点的绑定信息,从而实现逼真的动画效果。生成后,专用高斯解码器将点云转换为完整可渲染的高斯属性。我们证明,通过将解码器条件化于自回归生成器的潜在特征,可实现阶段间的有效交互并显著提升保真度。大量实验验证了AvatarPointillist能生成高质量、照片级真实感且可控的虚拟化身。我们相信这种自回归范式为化身生成开辟了新范式,代码开源将助力未来研究。
随着大语言模型智能体从软件工程任务向机器学习工程领域拓展,验证智能体行为所需的成本呈数量级增长:软件工程任务可通过快速执行的单元测试进行验证,而机器学习工程验证需要在每次迭代中基于大型数据集运行完整的机器学习流程(包括数据预处理、模型训练和指标评估),导致基于轨迹的在线强化学习方法因耗时过长而难以实施。现有研究大多退而采用监督微调或离线代理奖励,牺牲了在线强化学习的探索与泛化优势。我们发现沙箱数据规模是造成这一瓶颈的主要根源。基于此洞察,我们提出SandMLE多智能体框架,该框架通过少量种子任务生成多样化、可验证的合成机器学习工程环境,在保持现实问题结构复杂性与技术挑战的同时,将数据集规模约束在微尺度(每个任务仅包含50-200个训练样本)。大量实验表明,SandMLE将执行时间缩短超过13倍,首次在机器学习工程领域实现大规模在线轨迹强化学习。在MLE-bench-lite基准测试中,SandMLE在Qwen3-8B、14B和30B-A3B模型上均显著超越监督微调基线,相对奖牌率提升幅度达20.3%至66.9%。此外,经训练的策略在不同智能体架构间展现出卓越泛化能力,在MLE-Dojo评估中人类评分最高提升32.4%。
随着智能体AI系统越来越多地代表人类主体执行关键操作,任务委派通过自主智能体构成的多步链式结构实现。现有标准均未解决一个根本性的问责缺口:如何验证委派链中的终端操作确实经由人类主体授权、通过何种委派链条、以及在何种权限范围内执行。本文提出人类委派溯源(HDP)协议,这是一种基于令牌的轻量级方案,通过密码学方式在多智能体系统中捕获并验证人类授权上下文。HDP令牌将人类授权事件与会话绑定,以仅追加链的形式记录每个智能体的委派操作作为签名跳点,使参与者仅凭发行方的Ed25519公钥和当前会话标识符即可验证完整溯源记录。验证过程完全离线进行,无需注册表查询或第三方信任锚点。我们将HDP置于现有委派协议体系中,明确其相对于OAuth 2.0令牌交换(RFC 8693)、JSON Web令牌(RFC 7519)、UCAN以及意图溯源协议(draft-haberkamp-ipp-00)的独特设计定位,论证现有标准无法满足智能体系统对多跳、仅追加、人类溯源的核心需求。HDP已作为IETF互联网草案(draft-helixar-hdp-agentic-delegation-00)发布,并公开提供TypeScript参考开发工具包。
生物学与物理学基础模型虽能优化预测精度,但其内部表征系统性地无法保持所建模系统的连续几何结构。我们揭示了根本原因:几何对齐税——即强制将连续流形通过离散分类瓶颈时产生的固有代价。在合成动力系统上的受控消融实验表明,将交叉熵损失替换为相同编码器上的连续输出头,可使几何失真降低达8.5倍;而学习型码本则呈现非单调的双重约束现象,即更精细的量化在改善重建效果的同时反而恶化几何保持。在连续目标下,三种架构的差异仅为1.3倍;而采用离散标记化时,其差异扩大至3000倍。通过率失真理论和MINE指标对14个生物基础模型进行评估,我们识别出三种失效机制:局部-全局解耦、表征压缩与几何真空。受控实验证实,Evo 2模型在真实DNA数据上表现出的反向互补稳健性反映的是保守序列组成,而非习得的对称性。所有模型均未能同时实现低失真、高互信息和全局连贯性。
长尾识别已受益于基础模型与微调范式,但现有研究与基准主要局限于自然图像领域,其预训练与微调数据分布相似。相比之下,科学图像具有独特的视觉特征和监督信号,这引发了对基础模型在此类场景下微调有效性的质疑。本研究在纯视觉与参数高效微调范式下探索科学长尾识别问题。在三个科学基准上的实验表明,微调基础模型带来的增益有限,并揭示出倒数第二层特征具有重要作用——尤其对尾部类别而言。基于这些发现,我们提出SciLT框架,通过自适应特征融合与双重监督学习利用多层级表征。通过联合利用倒数第二层与最终层特征,SciLT在头部与尾部类别间实现了均衡性能。大量实验证明,SciLT持续优于现有方法,为科学长尾识别建立了强大实用的基准,并为适应存在显著域偏移的科学数据提供了重要指导。
将因果生成式语言模型转化为双向编码器,为BERT式架构提供了强大的替代方案。然而现有方法仍存在局限:缺乏对最优训练目标的共识,在大规模应用中遭遇灾难性遗忘,且难以灵活整合专业生成模型的庞大生态。本研究通过对Gemma3和Qwen3模型家族的系统性消融实验,揭示了成功适配的关键因素,特别指出常被忽略的先验掩码阶段的核心作用。为实现无需原始预训练数据的规模化适配,我们提出结合线性权重融合与轻量级多领域数据混合的双重策略,有效缓解灾难性遗忘。最终通过将编码器与专业因果模型融合,实现模态与领域特定能力的无缝迁移。这套适用于任意因果解码器LLM的开源方案催生了BidirLM系列——五个在文本、视觉及音频表征基准测试中全面领先的编码器模型。
科学出版加速化使得研究人员愈发难以追踪前沿动态。本文推出开源平台Paper Espresso,该系统能自动发现、总结并分析热门的arXiv论文。通过大语言模型生成带主题标签与关键词的结构化摘要,并借助LLM驱动的主题整合技术实现日/周/月多粒度趋势分析。在持续部署的35个月间,该系统已处理超13,300篇论文并公开全部结构化元数据,揭示了AI研究领域的丰富动态:2025年中旬涌现的LLM推理强化学习热潮、非饱和性主题增长(6,673个独立主题)以及主题新颖度与社区参与度的正相关性(最具新颖性论文的中位数点赞量提升2.0倍)。实时演示详见:https://huggingface.co/spaces/Elfsong/Paper_Espresso。
金融服务领域自主智能体的快速发展正引发一场根本性的架构危机:大型语言模型作为概率性非确定性系统,却需在要求绝对数学可验证合规性的领域运行。现有防护方案——包括英伟达NeMo护栏与Guardrails AI——依赖的概率分类器与语法验证器,本质上无法强制执行美国证交会、金融业监管局及货币监理署所要求的复杂多变量监管约束。本文提出精益智能体协议,该基于形式化验证的AI护栏平台利用Harmonic AI开发的亚里士多德神经符号模型,将机构政策自动形式化为Lean 4代码。每个拟议智能体动作皆被视为数学猜想:当且仅当Lean 4内核证明该动作满足预编译监管公理时方可执行。此架构以微秒级延迟提供密码学级别的合规确定性,直接满足证交会15c3-5规则、货币监理署2011-12号公告、金融业监管局3110规则及消费者金融保护局可解释性要求。文中还提出了从影子验证到企业级部署的三阶段实施路线图。
大型语言模型(LLMs)已能创作诗歌,但它们与人类诗人的差距究竟有多大?本文提出首个诗歌综合评估框架POEMetric,从三个维度进行考察:1)基础指令遵循能力,即按特定格式与主题生成诗歌;2)高阶能力,包括展现创造性、词汇多样性、个人风格、唤起情感共鸣、运用意象与修辞手法;3)整体质量评估与作者归属判断。我们构建了人类诗歌数据集(含7种固定格式的203首英文诗,标注格律、韵律模式及主题),并以相同格式主题让30个LLMs生成诗歌,总计获得6,090首LLM诗作。基于POEMetric框架,我们通过规则化评估与LLM作为评判者的方式对比人类诗人与LLMs的表现,结果经专家验证。研究表明:尽管最优模型在格式准确性(以Gemini-2.5-Pro为评判者,得分4.26/5.00)和主题契合度(4.99)上表现优异,但所有模型在创造性(4.02)、独特性(3.95)、情感共鸣(4.06)、意象运用(4.49)及修辞手法(4.67)等高阶能力上均未达到人类诗人水准。人类诗人同时在整体诗歌质量上优于最佳LLM(4.22 vs. 3.20)。由此可见,诗歌创作仍是LLMs面临的重大挑战。数据与代码已发布于https://github.com/Bingru-Li/POEMetric。
基于可验证奖励的强化学习(RLVR)虽已提升大语言模型的推理能力,但存在根本局限:模型无法从超出当前策略解决能力的问题中学习,因为这类问题无法产生有效奖励信号。我们提出一种基于任务重构的简洁有效解决方案:将具有挑战性的开放性问题转化为认知上更简单的变体——如选择题和完形填空题——这些形式在保留原问题答案的同时,能缩减有效搜索空间并提供更密集的学习信号。这些重构任务覆盖从判别式到生成式的任务谱系,我们借此实现学习引导:模型先通过结构化简易格式学习,再将习得知识迁移回原始开放问题以提升表现。基于此,我们提出Cog-DRIFT框架,该框架不仅构建重构任务变体,还根据难度将其组织成自适应课程。训练从易到难渐进推进,使模型能从标准RL后训练中原本零信号的问题中学习。Cog-DRIFT不仅在原不可解难题上实现显著提升(Qwen绝对提升+10.11%,Llama提升+8.64%),还能良好泛化至其他保留数据集。在2个模型和6个推理基准测试中,我们的方法持续优于标准GRPO及强引导探索基线,平均较次优基线提升+4.72%(Qwen)和+3.23%(Llama)。进一步实验表明,Cog-DRIFT能提升测试时的pass@k指标,且课程学习可提高样本效率。总体而言,我们的研究证实任务重构与课程学习是突破大模型后训练探索瓶颈的有效范式。
视听大语言模型(AVLLMs)正逐渐成为多模态感知的统一接口。我们首次对AVLLM展开机制可解释性研究,通过分析音频与视觉特征在模型不同层级的演化与融合过程,揭示其生成最终文本输出的内在机理。研究发现:尽管AVLLM在中间层编码了丰富的音频语义,但当音频与视觉信息冲突时,这些能力大多无法体现在最终文本生成中。探针分析表明,有效的潜在音频信息确实存在,但深层融合模块会过度偏向视觉表征,从而抑制音频线索的传递。我们进一步追溯这种失衡至训练阶段:AVLLM的音频处理模式与其视觉-语言基础模型高度吻合,表明其对音频监督信号的额外对齐有限。本研究揭示了AVLLM固有的模态偏好,为理解多模态大模型如何整合视听信息提供了新的机制性见解。
大语言模型(LLM)多智能体系统可通过两个独立维度实现扩展:增加智能体数量以及通过长期经验积累进行优化。尽管已有研究分别探讨过这两个维度,但在实际成本约束下二者的交互机制尚不明确。本文提出一种多智能体系统的概念化扩展视角,同时考量团队规模与终身学习能力,并研究内存设计如何在这一框架中发挥作用。为此,我们提出LLMA-Mem——一种支持灵活内存拓扑结构的LLM多智能体终身记忆框架。我们在MultiAgentBench平台上针对编程、科研和数据库环境进行评估,实证表明LLMA-Mem在降低成本的同时,能持续提升长周期任务性能。进一步分析揭示出非单调的扩展特性:扩大团队规模并非总能带来更好的长期性能,当内存设计能更有效支持经验复用时,较小团队反而可能超越大规模团队。这些发现将内存设计定位为多智能体系统实现更高效、更经济长期扩展的实践路径。
多智能体通信压力能否从冻结视频特征中提取不可见物理属性的离散组合表征?我们证明,通过Gumbel-Softmax瓶颈进行迭代学习的通信智能体,能在无属性标签或消息结构监督的情况下,针对潜在属性(弹性、摩擦、质量比)发展出位置解耦的通信协议。在4智能体设定中,80次实验的100%种子均收敛至近乎完美的组合性(位置解耦指数=0.999,留一验证98.3%)。对照实验证实该效应由多智能体结构驱动,而非带宽或时序覆盖范围。因果干预显示可精准破坏特定属性(目标属性下降约15%,其他属性波动<3%)。骨干网络对比表明感知先验决定通信内容:DINOv2在空间可见的斜面物理场景占优(98.3% vs 95.1%),而V-JEPA 2在纯动力学碰撞场景领先(87.4% vs 77.7%,d=2.74)。规模匹配(d=3.37)与帧数匹配(d=6.53)对照实验将该差距完全归因于视频原生预训练。冻结协议支持动作条件规划(91.5%)及反事实速度推理(r=0.780)。在Physics 101真实摄像数据上的验证表明:未见物体的质量比较准确率达85.6%,时序动态比静态外观提升11.2%,4智能体的组合性可复现至90%,因果干预可扩展至真实视频(d=1.87, p=0.022)。
扩散大语言模型(dLLMs)理论上允许以任意顺序进行标记解码,这种灵活性可能比自回归(AR)大语言模型实现更丰富的推理路径探索。然而在实际应用中,随机顺序解码往往会损害生成质量。为缓解此问题,低置信度重掩码通过优先选择高置信度标记来提升单样本质量(如Pass@1),但同时也抑制了探索性并限制了多样本收益(如Pass@k),从而形成了根本性的质量-探索困境。本文提出对该困境的统一解释:我们证明低置信度重掩码虽能改进短视的质量代理指标,但可证明地约束了诱导序列分布的熵。为突破此局限,我们刻画了显式平衡质量与探索的最优分布特征,并开发了一种独立的Metropolis-Hastings采样器,在解码过程中近似逼近该分布。在MATH500、AIME24/25、HumanEval和MBPP等推理基准测试上的实验表明,我们的方法相比随机重掩码和低置信度重掩码能实现更优的探索-质量权衡。