每日精选AI研究论文及翻译
基于可验证奖励的强化学习(RLVR)通常采用分组采样来估计优势函数并稳定策略更新。实践中,由于计算资源限制,大分组规模不可行,这会导致学习过程偏向已有高概率轨迹。小分组虽能包含混合奖励信号,却常遗漏稀有正确轨迹,使概率质量集中于常见解。我们推导了更新过程遗漏稀有正确模式的概率与分组规模的函数关系,揭示其非单调特性,并刻画了更新在正确解集内重新分配概率质量的机制,发现未采样的正确解概率质量可能缩减,即使总体正确解概率质量在增长。受此分析启发,我们借鉴焦点损失思想提出难度感知的优势缩放系数,对高成功率提示的更新进行降权处理。这种轻量级改进可直接集成至GRPO、DAPO、CISPO等分组相对RLVR算法。在Qwen2.5-7B模型上的域内外基准测试表明,该方法在保持分组规模与计算成本不变的前提下,将pass@256指标从64.1提升至70.3(GRPO)、69.3提升至72.5(DAPO)、73.2提升至76.8(CISPO),同时保持或改进了pass@1性能。
稀疏自编码器(SAE)是解析神经表征的强大工具,但其在音频领域的应用仍待深入探索。我们在Whisper和HuBERT的所有编码器层上训练SAE,对其稳定性、可解释性进行了全面评估,并展示了实际应用价值。超过50%的特征在不同随机种子下保持稳定,且重建质量得以保持。SAE特征不仅能捕捉通用声学与语义信息,还能识别特定事件(包括环境噪声和副语言声音如笑声、耳语),并实现有效解耦——仅需移除19-27%的特征即可消除特定概念。通过特征调控,Whisper的虚假语音检测错误率降低70%,而词错误率仅微幅上升,证明了其实际应用潜力。最后,我们发现SAE特征与人类语音感知过程中的脑电图活动存在相关性,表明其与人类神经处理机制具有一致性。代码与模型检查点已开源:https://github.com/audiosae/audiosae_demo。
我们推出Baichuan-M3,这是一款医疗增强型大语言模型,旨在将范式从被动问答转向主动的临床级决策支持。针对现有系统在开放式问诊中的局限性,Baichuan-M3采用专业化训练流程模拟医师的系统化工作流。其核心能力包括:(一)主动信息采集以消除歧义;(二)长程推理能力,将零散证据整合为连贯诊断;(三)自适应幻觉抑制机制确保事实可靠性。实证评估表明,Baichuan-M3在新推出的HealthBench、HealthBench-Hallu及ScanBench基准测试中取得最先进成果,在临床问询、咨询建议与安全性方面显著超越GPT-5.2。模型已开源发布于https://huggingface.co/collections/baichuan-inc/baichuan-m3。
大型语言模型(LLMs)的快速发展推动了能够驾驭复杂环境的自主智能体的研发。然而,现有评估方法主要采用演绎范式——智能体基于明确给定的规则和静态目标执行任务,且往往局限于有限的规划视野。关键在于,这种方式忽视了智能体从经验中自主发现潜在状态转移规律的归纳需求,而这正是实现智能体前瞻性认知与保持战略连贯性的基石。为弥补这一空白,我们推出OdysseyArena框架,将智能体评估重心重新定位至长周期、主动式、归纳式的交互场景。我们通过形式化定义并实例化四大基础要素,将抽象的状态转移动态转化为具体交互环境。在此基础上,我们构建了标准化基准测试平台OdysseyArena-Lite,提供120项任务以量化智能体的归纳效率与长周期探索能力。更进一步,我们推出OdysseyArena-Challenge,用于极限交互场景(如>200步)下智能体稳定性的压力测试。基于15余个前沿LLM的大规模实验表明,即使尖端模型在归纳场景中仍存在明显缺陷,这揭示了复杂环境下实现自主探索能力的关键瓶颈。我们的代码与数据已开源:https://github.com/xufangzhi/Odyssey-Arena
熵作为衡量大语言模型(LLM)输出多样性的关键指标,为理解其探索能力提供了重要视角。尽管近期研究日益关注通过监控和调节熵来优化强化微调(RFT)过程中的探索-利用平衡,但对该过程中熵动态变化的理论认知仍有待深入探索。本文建立了分析RFT过程中熵动态的理论框架,首先提出量化单个逻辑单元更新下熵变化的判别式,进而推导出熵变化的一阶表达式,并将其扩展至群组相对策略优化(GRPO)的更新公式。理论分析得出的推论与洞见不仅启发了熵控制方法的设计,也为现有研究中各类基于熵的方法提供了统一解读视角。我们通过实验证据支持主要结论,并验证了所推导的熵判别器裁剪方法的有效性。本研究为RFT训练动态提供了新见解,为优化LLM微调过程中的探索-利用平衡奠定了理论基础并提出了实用策略。
能够在多样环境中模拟行动结果,将彻底革新通用智能体的大规模开发。然而,由于数据覆盖有限和动作标签稀缺,对这些世界动态进行建模(尤其是灵巧机器人任务)仍面临重大挑战。为此,我们推出DreamDojo——一个基于44,000小时人类第一视角视频学习多样化交互与灵巧控制的基础世界模型。我们的混合数据集是目前世界模型预训练领域规模最大的视频数据集,涵盖包含丰富物体与技能的日常场景。针对动作标签稀缺问题,我们引入连续潜在动作作为统一代理动作,增强从未标注视频中迁移交互知识的能力。经过小规模目标机器人数据的后训练,DreamDojo展现出对物理规律的深刻理解和精准的动作控制能力。我们还设计了蒸馏管道,将模型加速至10.81 FPS的实时运行速度,并进一步提升上下文一致性。本研究实现了基于生成式世界模型的多个重要应用,包括实时遥操作、策略评估和基于模型的规划。在多个具有挑战性的分布外基准测试中的系统化评估,验证了我们的方法在模拟开放世界、密集接触任务方面的重要意义,为通用机器人世界模型的发展开辟了新路径。
本研究提出了一款面向科研人员与新闻工作者的语音转写系统"Pisets",该系统采用三模块架构以提升语音识别准确率,同时减少Whisper模型常见的误识别与幻听现象。该架构包含基于Wav2Vec2的初级识别、通过音频谱图变换器(AST)的误报过滤以及最终经由Whisper完成的语音识别三个核心环节。通过实施课程学习策略并融合多源俄语语音语料库,系统效能得到显著提升。此外,引入先进的不确定性建模技术进一步优化了转录质量。与WhisperX及标准Whisper模型相比,本方案能稳健处理不同声学环境下的长音频数据转录任务。"Pisets"系统的源代码已在GitHub平台开源:https://github.com/bond005/pisets。
训练不稳定性始终是大型语言模型预训练中的关键挑战,常表现为突发的梯度爆炸,造成大量计算资源浪费。我们通过μP缩放的500万参数NanoGPT模型研究训练故障,发现崩溃前会出现两个关键现象:(1)权重矩阵稳定秩(Frobenius范数平方与谱范数平方之比)快速下降;(2)相邻层雅可比矩阵间对齐度持续增强。我们从理论上证明这两种条件共同导致梯度范数随网络深度呈指数级增长。为打破这种不稳定性机制,我们提出MSign优化器,通过周期性应用矩阵符号运算来恢复稳定秩。在500万至30亿参数模型上的实验表明,MSign能以低于7.0%的计算开销有效防止训练故障。
对世界的内部建模——预测在行动Z作用下从先前状态X到后续状态Y的转换——对于大语言模型和视觉语言模型的推理与规划至关重要。学习此类模型通常需要耗费高昂的动作标注轨迹。我们提出SWIRL自改进框架,通过将动作视为潜变量,并交替进行前向世界建模P_θ(Y|X,Z)与逆动力学建模Q_φ(Z|X,Y),从仅含状态的序列中学习。SWIRL迭代执行两个阶段:(1)变分信息最大化:更新前向世界模型以生成能最大化潜动作与先验状态条件互信息的后续状态,促进可识别一致性;(2)ELBO最大化:更新逆动力学模型以解释观测到的状态转换,实现坐标上升。两个模型均采用强化学习(具体为GRPO)进行训练,以冻结模型的对数概率作为奖励信号。我们为两种更新提供了理论可学习性保证,并在多环境中评估SWIRL:单轮/多轮开放世界视觉动态环境,以及物理、网络和工具调用的合成文本环境。SWIRL在AURORABench上提升16%,ByteMorph提升28%,WorldPredictionBench提升16%,StableToolBench提升14%。
近期推理模型的进展表明,生成研究级数学问题的合理解答或许已触手可及,但验证环节仍是瓶颈,消耗着稀缺的专家资源。我们提出假设:一个有意义的解决方案应包含足够的方法层面信息,使其在应用于相关问题时,能比错误方案产生更优的下游性能。基于此思路,我们提出基于结果的效用评估法——一种无需人工标注的评估器,通过检验候选方案在解决相关可验证问题时作为上下文示例的价值来进行评分。我们在自建的研究级数学问题集上评估该方法,每个问题均配有一个专家撰写解答和九个LLM生成解答。值得注意的是,基于结果的效用评估法在排序质量上持续优于奖励模型、生成式奖励模型及LLM评判器。具体而言,在GPT-OSS-120B上,其Acc@1从67.2提升至76.3,AUC从71.4提升至79.6;在GPT-OSS-20B上同样实现AUC大幅提升(从69.0至79.2)。此外,与LLM评判器相比,该方法展现出更大的求解器-评估器差距,即使在底层求解器经常失败的案例中,仍能保持更强的正误区分能力。
长推理模型在多语言场景中常面临挑战:面对非英语问题时,它们倾向于用英语进行推理;若强制使用问题语言进行推理,准确率则会大幅下降。这种困境源于模型在多语言问题理解与多语言推理两方面的能力局限。为解决这两个问题,我们提出TRIT(翻译-推理联合训练)框架——一种通过整合翻译训练实现自我提升的多语言推理方法。在无需外部反馈或额外多语言数据的情况下,我们的方法能同步增强多语言问题理解与回答生成能力。在MMATH数据集上,该方法以平均7个百分点的优势超越多个基线模型,同时提升了答案准确性与语言一致性。进一步分析表明,翻译训练的整合使跨语言问题对齐效果提升超过10个百分点,并显著提升了数学问题及通用领域文本的翻译质量,在FLORES-200数据集上COMET指标最高提升达8.4分。
视觉语言模型的快速发展催生了GUI智能体的兴起,这些智能体在自动化复杂任务(从在线购物到航班预订)方面具有巨大潜力,从而减轻重复性数字工作流程的负担。作为基础能力,GUI定位通常被确立为端到端任务执行的前提条件,它使模型能够精确定位界面元素(如文本和图标),以执行点击、输入等精准操作。与先前基于已具备强空间感知能力的模型(如Qwen3-VL)进行微调的研究不同,我们旨在从基础能力较弱的模型(如POINTS-1.5)起步,掌握完整技术链条。我们推出的POINTS-GUI-G-8B模型实现了业界领先性能,在ScreenSpot-Pro上得分59.9,OSWorld-G上66.0,ScreenSpot-v2上95.7,UI-Vision上49.9。该模型的成功源于三大关键因素:(1)精炼的数据工程,通过统一多样化开源数据集格式,并采用数据增强、筛选及难度分级等精细化策略;(2)优化的训练策略,包括持续微调视觉编码器以提升感知精度,保持训练与推理阶段的分辨率一致性;(3)基于可验证奖励的强化学习。传统上强化学习主要用于增强推理能力,但我们证明其能显著提升感知密集型GUI定位任务的精度。此外,GUI定位任务天然适合强化学习,因为奖励机制易于验证且具有高准确性。
大规模语言模型(LLMs)的扩展推动了对基于矩阵的优化器(如Shampoo、Muon、SOAP)的关注,因其收敛效率优势显著;然而这类优化器要求整体参数更新,与Megatron等分布式框架中的张量分片策略存在根本冲突。现有解决方案存在局限:同步方法会产生计算冗余,而分层划分策略虽能缓解冲突,却会破坏高效通信原语的几何约束。为弥补这一鸿沟,我们提出Canzona——一个统一、异步且负载均衡的框架,其将逻辑优化器分配与物理参数分布解耦。针对数据并行场景,我们提出α均衡静态划分策略,在保持参数原子性的同时消除负载不均。针对张量并行场景,我们设计基于微组调度的异步计算流水线,通过批量处理分片化更新隐藏重构开销。在256张GPU上对Qwen3模型族(最高320亿参数)的广泛实验表明,我们的方案在保持现有并行架构效率的同时,实现了端到端迭代时间1.57倍加速,并将优化器步长延迟降低5.8倍。
可验证奖励强化学习(RLVR)已成为增强大语言模型推理能力的关键范式。然而,标准策略优化方法如分组相对策略优化(GRPO)常收敛至低熵策略,导致严重的模式坍塌和输出多样性受限。我们从采样概率动态视角分析该问题,发现标准目标函数会过度强化高似然路径,从而抑制有效的替代推理链。为此,我们提出新颖的优势重加权机制(ARM),通过将提示困惑度与答案置信度融入优势估计,动态重塑奖励信号以削弱过度自信推理路径的梯度更新,同时将概率质量重新分配给未被充分探索的正确解。实证结果表明,该方法在保持竞争力的准确率同时显著提升生成多样性和响应熵,有效实现推理任务中探索与利用的更优平衡。在Qwen2.5和DeepSeek模型上的数学与编程基准测试表明,改进型GRPO显著缓解了熵坍塌问题。具体而言,在Qwen2.5-7B模型上,本方法在Pass@1指标上超越GRPO 5.7%,在Pass@32指标上更是领先13.9%,凸显其生成多样化正确推理路径的卓越能力。
大型推理模型通过扩展推理时的思维链实现强大性能,但这种范式存在二次成本增长、上下文长度限制以及因"中间信息丢失效应"导致的推理质量下降等问题。迭代式推理通过周期性总结中间思路来缓解这些问题,然而现有方法依赖监督学习或固定启发式规则,无法优化总结时机、信息保留内容和推理重启策略。我们提出InftyThink+——基于模型控制的迭代边界与显式摘要机制的端到端强化学习框架,可优化完整迭代推理轨迹。该框架采用监督式冷启动与轨迹级强化学习相结合的两阶段训练方案,使模型学会战略性摘要生成与推理续接决策。在DeepSeek-R1-Distill-Qwen-1.5B上的实验表明,InftyThink+在AIME24上的准确率提升21%,显著优于传统长思维链强化学习方法,同时在分布外基准测试中展现出更强泛化能力。此外,该框架大幅降低推理延迟并加速强化学习训练,在提升推理效率的同时实现了更优的性能表现。
当前移动端GUI智能体基准测试普遍缺乏对记忆能力的系统评估,仅包含5.2%-11.8%的记忆相关任务且未涉及跨会话学习评估。我们推出MemGUI-Bench——一个采用pass@k评估和分层式LLM即评判机制的综合性记忆能力基准测试框架。本研究的贡献包括:(1) 基于5类架构对11种智能体进行系统化记忆能力分类分析;(2) 涵盖26个应用的128项任务,其中89.8%通过跨时空信息保持机制设计实现记忆挑战;(3) 集成渐进式审查机制与7级分层指标的MemGUI-Eval自动化评估管线;(4) 对11种前沿智能体开展问题导向型评估。实验结果表明:所有被测系统均存在显著记忆缺陷,我们据此识别出5类典型故障模式,并提炼出5项可落地的设计启示。所有资源(代码、基准测试集及评估结果)将通过https://lgy0404.github.io/MemGUI-Bench/ 持续开源维护。
理解自我中心视频对具身智能至关重要。当前的多模态大语言模型(MLLMs)已能同时接收视觉与听觉输入。然而,由于难以获取具有连贯跨模态信息的文本标注,MLLMs能否联合理解自我中心视频中的双模态信息仍待探索。针对该问题,我们提出EgoAVU——一个可扩展的数据引擎,能自动生成自我中心视角的视听叙事、问题及回答。EgoAVU通过多模态上下文增强人工叙事,并借助跨模态关联建模生成视听叙事。基于令牌的视频过滤与模块化图结构筛选机制确保了数据多样性与质量。基于EgoAVU,我们构建了包含300万样本的大规模训练数据集EgoAVU-Instruct,以及涵盖多任务的人工验证评估集EgoAVU-Bench。EgoAVU-Bench清晰揭示了现有MLLMs的局限:它们严重偏向视觉信号,常忽略听觉线索或无法将声音与视觉源对应。在EgoAVU-Instruct上微调MLLMs可有效解决此问题,使EgoAVU-Bench性能提升最高达113%。该优势还能迁移至EgoTempo、EgoIllusion等其他基准测试,实现最高28%的相对性能提升。代码将向社区开源。
生成式奖励模型(GenRMs)与LLM即评判器(LLM-as-a-Judge)存在欺骗性对齐现象,即它们会基于错误的原因产生正确判断。这是因为其训练和评估过度强调结果准确性,从而削弱了在人类反馈强化学习(RLHF)中的泛化能力。我们提出理性一致性(Rationale Consistency)这一细粒度指标,用于量化模型推理过程与人类判断之间的对齐程度。对前沿模型的评估表明,理性一致性能有效区分顶尖模型并检测欺骗性对齐,而结果准确性在这两方面均存在不足。为弥补这一缺陷,我们引入了一种融合理性一致性与结果准确性的混合信号用于GenRM训练。我们的训练方法在RM-Bench(87.1%)和JudgeBench(82%)上达到最优性能,较仅关注结果的基线平均提升5%。在RLHF过程中使用该奖励模型时,我们的方法显著提升了性能——如Arena Hard v2测试所示,创意写作任务中尤为突出地实现了7%的提升。进一步分析证实,该方法成功规避了欺骗性对齐陷阱,有效扭转了纯结果训练中理性一致性的下降趋势。
专家混合模型(MoE)架构正朝着更精细的粒度演进以提升参数效率。然而现有MoE设计面临专家 specialization 粒度与硬件执行效率之间的固有权衡。我们提出OmniMoE——一个系统算法协同设计的框架,将专家粒度推向逻辑极致。该框架引入向量级原子专家,在单一MoE层内实现可扩展的路由与执行,同时保留共享的稠密MLP分支进行通用处理。尽管这种原子化设计最大化了模型容量,但给路由复杂度和内存访问带来严峻挑战。为此,OmniMoE采用系统算法协同设计:(1)笛卡尔乘积路由器将海量索引空间分解,使路由复杂度从O(N)降至O(√N);(2)以专家为中心的重调度机制通过反转执行顺序,将分散的内存受限查找转化为高效的稠密矩阵运算。在七项基准测试中,OmniMoE(激活参数17亿)零样本准确率达50.9%,优于粗粒度(如DeepSeekMoE)和细粒度(如PEER)基线。关键的是,相比PEER模型,OmniMoE将推理延迟从73毫秒降至6.7毫秒(加速10.9倍),证明海量细粒度MoE可实现快速精准推理。代码已开源于https://github.com/flash-algo/omni-moe。
人类通过多模态协同感知世界,形成对环境的整体认知,然而现有全视频模型在视听理解任务中仍面临重大挑战。本文提出OmniVideo-R1——一种通过强化学习提升多模态推理能力的新型框架。该框架通过两大核心策略使模型具备"全模态线索思考"能力:基于自监督学习范式的密集查询定位技术,以及构建于对比学习范式之上的模态注意力融合机制。在多个基准测试上的实验表明,OmniVideo-R1持续超越强基线模型,彰显了其卓越的有效性与鲁棒的泛化能力。
大型语言模型(LLMs)已展现出卓越的推理能力,在广泛任务中取得显著成果。然而即便在看似简单的场景中,仍持续存在明显的推理缺陷。为系统化理解并解决这些不足,我们首次推出专注于LLM推理失败的综合研究综述。我们提出一种新颖的分类框架,将推理划分为具身与非具身两种类型,后者进一步细分为非形式化(直觉性)推理与形式化(逻辑性)推理。同时,我们沿互补维度将推理失败归为三类:普遍影响下游任务的LLM架构固有缺陷、特定领域显现的应用局限性,以及轻微变动即导致性能波动的鲁棒性问题。针对每类推理失败,我们明确定义、分析现有研究、探究根本原因并提出改进策略。通过整合碎片化研究,本综述为LLM系统性推理弱点提供了结构化视角,为构建更强健、可靠且鲁棒的推理能力指明方向。我们同步发布了LLM推理失败研究资源库(GitHub项目地址:https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures),为该领域研究提供便捷入口。
开放式自我改进智能体能够通过自主调整自身结构设计来提升能力,突破预定义架构的限制,从而减少对人类干预的依赖。我们提出群体进化智能体(GEA)这一新型开放式自我改进范式,将智能体群体作为基本进化单元,实现进化过程中群体内经验的显式共享与复用。与现有采用树状进化结构的开放式自进化范式不同,GEA克服了因进化分支孤立导致的探索多样性利用效率低下的局限。在具有挑战性的编程基准测试中,GEA显著优于当前最先进的自进化方法(SWE-bench Verified任务上71.0%对56.7%,Polyglot任务上88.3%对68.3%),并与顶尖人工设计智能体框架性能持平或更优(两项基准测试分别达到71.8%和52.0%)。分析表明,GEA能更有效地将早期探索多样性转化为持续的长期进步,在同等进化代数下实现更强性能。此外,GEA展现出跨编程模型的稳定迁移性和更强鲁棒性,平均仅需1.4次迭代即可修复框架级错误,而自进化方法需要5次迭代。
仅权重量化对压缩大语言模型至关重要。受经典幅度剪枝思想启发,我们研究在推理激励微调过程中,权重更新幅度能否为大型推理模型的量化提供有效信号。我们提出假设:微调过程中最小和最大的权重更新比中等幅度的更新更为重要,这一现象称为"两端保护"。经假设验证后,我们提出QuantLRM——基于微调信号的大型推理模型权重量化方法。通过拟合简单的受限二次函数来保护权重更新的两端,将通道的二次函数均值与零权重更新次数相乘,计算出比激活值或二阶信息更有效的通道重要性。我们在四个推理基准测试集(AIME-120、FOLIO、时序序列和GPQA-Diamond)上对多种微调模型(包括监督微调、直接偏好优化和强化学习微调)进行量化实验,实证表明QuantLRM能持续提升大型推理模型的量化效果,在强化学习微调模型上平均提升6.55%。该方法还支持未微调的大型推理模型,通过伪微调收集有效信号,极大增强了适用性。
大型语言模型(LLM)的高效部署需要极端量化技术,这迫使我们在低位宽效率与模型性能之间进行关键权衡。残差二值化技术通过堆叠二元(±1)层实现了硬件友好的无矩阵乘法推理,但一直受困于病态特征共适应问题。我们发现了一种关键失效模式——路径间适应:在量化感知训练(QAT)过程中,并行的残差二元路径会学习冗余特征,从而破坏误差补偿结构并限制模型表达能力。现有研究多依赖启发式解决方案(如路径冻结)来约束解空间,而本文提出创新量化框架RaBiT,通过算法化实施残差层级结构从根本上解决共适应问题。其核心机制是从单一共享全精度权重中顺序推导各二元路径,确保每个路径都能修正前一路径的误差。该过程通过优先保障功能完整性而非单纯权重近似的鲁棒初始化策略实现稳定化。RaBiT重新定义了2比特精度-效率边界:在RTX 4090上不仅达到最先进性能,甚至可与硬件密集的向量量化(VQ)方法相媲美,同时相比全精度模型实现4.49倍推理加速。
大型语言模型(LLMs)在非英语语境下常出现性能下降、文化适应性不足及安全鲁棒性减弱等问题,部分归因于预训练数据与人类偏好对齐数据集中英语占主导地位。基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)等训练方法依赖人类偏好数据,但英语之外的许多语言仍面临数据稀缺且非公开的困境。为弥补这一缺口,我们推出compar:IA——一项由法国政府内部开发的开源数字公共服务,旨在从以法语使用者为主的广泛群体中收集大规模人类偏好数据。该平台采用盲选配对比较界面,在保持低参与门槛和隐私保护自动过滤的同时,采集多样化语言模型的无约束真实场景提示与用户评判。截至2026年2月7日,compar:IA已收集超过60万条自由形式提示词和25万次偏好投票,其中约89%为法语数据。我们以开放许可发布三个互补数据集(对话记录、投票数据及互动反馈),并呈现初步分析成果,包括法语模型排行榜和用户交互模式。超越法国本土语境,compar:IA正逐步发展为国际数字公共产品,为多语言模型训练、评估及人机交互研究提供可复用基础设施。
我们研究了大型语言模型多目标对齐中一个持续存在的失效模式:训练仅提升部分目标的性能,却导致其他目标性能下降。我们将这一现象形式化为跨目标干扰,并对经典标量化算法进行了首次系统性研究,表明干扰现象普遍存在且表现出强烈的模型依赖性。 为解释该现象,我们推导出局部协方差定律,证明当目标奖励与标量化得分呈现正协方差时,该目标在一阶条件下会得到改进。我们将此分析延伸至现代对齐中使用的裁剪替代目标,证明在温和条件下尽管存在裁剪操作,协方差定律仍然成立。基于此分析,我们提出协方差目标权重自适应方法(CTWA),这种即插即用算法通过维持目标奖励与训练信号间的正协方差,有效缓解跨目标干扰。最后,我们结合Polyak-Łojasiewicz条件下的全局收敛分析,补充了这些局部改进条件,明确了非凸标量化优化实现全局收敛的时机,并揭示了跨目标干扰如何依赖于特定的模型几何特性。
多轮越狱攻击捕捉了安全对齐聊天机器人的真实威胁模型,而单轮攻击仅是特例。然而现有方法因探索复杂性和意图漂移问题而失效。我们提出SEMA——一个简单而有效的框架,无需依赖现有策略或外部数据即可训练多轮攻击者。SEMA包含两个阶段:前缀自调整通过微调非拒绝、结构良好的多轮对抗提示(仅需最小前缀即可自生成)来获得可用推演,从而稳定后续学习;基于意图漂移感知奖励的强化学习则训练攻击者生成有效的多轮对抗提示,同时保持相同的有害目标。我们通过融合意图对齐度、合规风险与细节层次的意图漂移感知奖励,在多轮越狱中锚定有害意图。开环攻击机制避免依赖受害者反馈,统一单轮与多轮设置,并降低探索复杂度。在多个数据集、受害者模型和越狱评估器上,我们的方法实现了最先进的攻击成功率,优于所有单轮基线、人工编写和模板驱动的多轮基线,以及我们的监督微调和直接偏好优化变体。例如在AdvBench基准上,SEMA对三个闭源与开源受害者模型的平均ASR@1达80.1%,超出原SOTA方法33.9%。该方法紧凑可复现,具有跨目标迁移能力,为大型语言模型安全提供了更强更真实的压力测试,支持通过自动红队测试暴露和定位失效模式。代码已开源:https://github.com/fmmarkmq/SEMA。
强化学习(RL)已成为训练基于大语言模型(LLM)的智能代理的主流范式。然而,现有骨干RL算法在智能代理场景中缺乏经过验证的收敛保证,尤其在多轮交互设定下,这易导致训练不稳定及无法收敛至最优策略的问题。 本文系统分析了策略更新机制与优势估计方法的不同组合在单轮/多轮场景中的收敛特性。研究发现:采用组相对优势估计(GRAE)的REINFORCE算法在无折扣条件下可收敛至全局最优,但PPO与GRAE的组合会破坏PPO原有的单调改进性质。此外,我们证明主流骨干RL算法在多轮场景中无法同时实现无评论员框架与收敛保证。 为此,我们提出SeeUPO(序列级顺序更新策略优化),一种具备收敛保证的无评论员方法,适用于多轮交互任务。SeeUPO将多轮交互建模为顺序执行的多智能体赌博机问题,通过逆序逐轮顺序更新策略,借助逆向归纳法确保单调改进并收敛至全局最优解。 在AppWorld和BFCL v4上的实验表明,SeeUPO相较现有骨干算法取得显著提升:Qwen3-14B模型相对增益达43.3%-54.6%,Qwen2.5-14B模型相对增益达24.1%-41.9%(基准测试平均值),同时展现出更优的训练稳定性。
当前大型语言模型(LLM)的标准训练流程通常采用从预训练到后训练的单向模式。然而,反向利用后训练成果优化预训练基座模型的双向机制尚未得到探索。我们致力于构建一种自我增强的飞轮效应:通过强化学习微调后的模型能够增强基座模型,而优化后的基座模型又能进一步提升后续后训练效果,且无需依赖特定训练的教师模型或参考模型。为实现这一目标,我们通过分析训练动态,发现模型能力跃升的关键转折点出现在训练中期(退火阶段)。该阶段通常位于预训练尾声,采用高质量语料库配合快速衰减的学习率进行训练。基于此发现,我们提出ReMiT(强化学习引导的中期训练)方法。具体而言,ReMiT利用强化学习微调模型的推理先验,在中期训练阶段动态调整词元权重,优先关注对推理至关重要的词汇。实验表明,ReMiT在数学、编程和通用推理等10项预训练基准任务上平均提升3%,且在后训练全流程中持续保持超过2%的增益。这些结果验证了迭代反馈回路的有效性,为LLM实现持续自我进化提供了新路径。
统一多模态模型在生成自然图像和支持多模态推理方面展现出卓越能力,然而其在支持与生活密切相关的计算机使用规划任务方面的潜力尚未得到充分探索。计算机使用任务中的图像生成与编辑需要空间推理、流程理解等能力,目前尚不清楚统一多模态模型是否具备完成这些任务的能力。为此,我们提出PlanViz新基准,专门评估计算机使用任务中的图像生成与编辑效果。为实现评估目标,我们聚焦于日常生活中频繁涉及且需要规划步骤的子任务,具体设计了三个新子任务:路径规划、工作流程图绘制以及网页与界面展示。通过人工标注的问题集、参考图像及质量控制流程,我们解决了数据质量保障的挑战。针对全面精准评估的难题,我们提出任务自适应评分体系PlanScore,该评分有助于理解生成图像的正确性、视觉质量与效能。实验结果表明了该研究领域的关键局限性与未来研究方向。
Transformer架构的平滑性已在泛化能力、训练稳定性和对抗鲁棒性方面得到广泛研究,但其在迁移学习中的作用仍不明确。本文通过分析视觉Transformer各组件的输出对输入变化的适应能力(即其可塑性)来填补这一空白。该指标定义为平均变化率,用于捕捉模型对输入扰动的敏感性:高可塑性即对应低平滑性。通过理论分析和系统实验,我们证明该视角能为迁移适应过程中的组件优先级选择提供理论指导。对实践者的关键启示在于,注意力模块和前馈层的高可塑性始终能带来更优的微调性能。这一发现突破了"平滑性必然有益"的主流认知,为Transformer的功能特性提供了新视角。代码已开源:https://github.com/ambroiseodt/vit-plasticity。
稠密Transformer语言模型长期遵循着统一的架构形态:每层由注意力模块后接窄-宽-窄多层感知机(MLP)构成的前馈网络(FFN)组成,其中大部分参数分配在扩展比为2至4的MLP部分。受近期残差宽-窄-宽(沙漏形)MLP具有更优函数逼近能力的研究启发,我们重新审视Transformer中长期沿用的MLP形态惯例,对窄-宽-窄设计的必要性提出质疑。为此,我们开发了一种Transformer变体,用更深的沙漏形FFN替代传统FFN——该结构由多个通过残差路径连接的沙漏形子MLP堆叠而成。我们提出,更深度但更轻量的沙漏形FFN可作为传统FFN的竞争性替代方案,且通过使用轻量化沙漏FFN节省的参数可被更有效地利用,例如在固定预算下扩大模型隐藏维度。我们通过不同模型规模的实证验证证实了这些观点:沙漏FFN在4亿参数规模以下优于传统FFN,在10亿参数规模上达到相当性能;在同等预算下,减少FFN参数并增加注意力参数的沙漏FFN变体相较传统配置展现出持续改进。这些发现为近期研究提供了新视角,促使我们重新思考窄-宽-窄MLP惯例以及注意力与FFN间的平衡关系,以构建更高效、表达能力更强的现代语言模型。
全切片图像预处理作为AI驱动计算病理学流程的基础环节,通常包含组织检测与组织块提取两个步骤。由于现有工具要么依赖准确性有限的启发式阈值分割进行组织检测,要么采用基于有限多样性数据训练的补丁级AI方法导致计算复杂度激增,该过程仍是主要计算瓶颈。我们提出AtlasPatch——一种高效可扩展的切片预处理框架,能以最小计算开销实现精准组织检测与高通量组织块提取。该框架的组织检测模块通过对约3万张异质性半人工标注的WSI缩略图数据集进行Segment-Anything模型的高效微调训练,可将组织掩码从缩略图外推至全分辨率切片,并在用户指定放大倍数下提取组织块坐标,支持将组织块直接流式输入常见图像编码器生成嵌入向量或存储图像文件,所有操作均可实现CPU与GPU的高效并行处理。我们在分割精度、计算复杂度及下游多示例学习任务中评估AtlasPatch,其性能达到业界最优水平的同时仅需极低计算成本。本工具已开源发布于https://github.com/AtlasAnalyticsLab/AtlasPatch。
大语言模型在开放域对话中展现出卓越能力,但在服务型对话场景下,现有方法因依赖嘈杂低质的人类对话数据而表现欠佳。这一局限源于数据稀缺性以及模拟真实目标导向用户行为的困难。为解决这些问题,我们提出SEAD(服务对话自演进智能体框架),该框架使智能体无需大规模人工标注即可学习有效策略。SEAD将用户建模解耦为两个组件:用于生成多样化用户状态以管理训练课程的档案控制器,以及专注于逼真角色扮演的用户模拟模型。该设计确保环境能提供自适应训练场景,而非充当不公平的对抗方。实验表明,SEAD显著优于开源基础模型与闭源商业模型,任务完成率提升17.6%,对话效率提高11.1%。代码已开源:https://github.com/Da1yuqin/SEAD。
尽管近期取得进展,但测试时动态扩展——即在推理过程中按需动态增加token预算——对视觉语言模型(VLM)而言仍显脆弱:基于图像的零散思维链会将感知与推理纠缠在一起,导致生成冗长混乱的上下文,其中微小的感知错误可能引发答案的完全错误。此外,现有方法需依赖人工设计奖励的昂贵强化学习才能获得良好性能。本文提出SPARC(感知与推理电路分离)这一模块化框架,显式解耦视觉感知与推理过程。受大脑序列化感觉-认知处理机制启发,SPARC采用两阶段流程:模型先执行显式视觉搜索以定位问题相关区域,随后基于这些区域进行条件推理生成最终答案。这种分离机制支持非对称计算资源的独立测试时扩展(如在分布偏移时优先增强感知处理),允许选择性优化(当感知阶段成为端到端性能瓶颈时可单独改进),并能通过低分辨率全局搜索配合高分辨率局部处理压缩上下文,从而减少视觉token总量与计算开销。在多项挑战性视觉推理基准测试中,SPARC均优于单体基线模型与强视觉定位方法。例如在V^* VQA基准上,SPARC将Qwen3VL-4B的准确率提升6.7个百分点;在挑战性OOD任务中,其表现较"图像思维"方法高出4.6分,而所需token预算仅为后者的1/200。
现有神经网络激活分析方法(如主成分分析和稀疏自编码器)依赖于强结构性假设。生成模型提供了另一种路径:它们无需此类假设即可揭示结构,并作为先验提升干预保真度。我们通过在一亿个残差流激活数据上训练扩散模型来探索这一方向,构建了学习网络内部状态分布的"元模型"。研究发现扩散损失随计算量增加而平滑下降,并能可靠预测下游效用。特别值得注意的是,将元模型习得的先验应用于导向干预时可提升生成流畅度,且损失越低改善幅度越大。此外,元模型的神经元逐渐将概念分离至独立单元,其稀疏探测分数随损失下降而提升。这些结果表明生成式元模型为可解释性研究提供了无需严格结构性假设的可扩展路径。项目页面:https://generative-latent-prior.github.io。
当前的信息检索智能体在长周期探索中难以保持专注与连贯性,因为仅依靠纯文本上下文来追踪搜索状态(包括规划流程和海量搜索结果)存在固有脆弱性。为解决这一问题,我们提出表格式搜索框架,将信息检索任务重新定义为表格填充任务。该框架将每个查询映射为存储于外部数据库的结构化表格范式,其中行代表搜索候选项,列表示约束条件或所需信息。这种表格能精准管理搜索状态:已填充单元格严格记录历史与搜索结果,而未填充单元格则作为明确的搜索计划。关键突破在于,该框架统一了三种不同的信息检索任务:深度搜索、广度搜索以及具有挑战性的深度广度混合搜索。大量实验表明,在包含多智能体框架和商业系统的三类基准测试中,该框架显著优于众多前沿基线方法。进一步分析验证了该框架在长周期信息检索中卓越的鲁棒性,同时兼具高效性、可扩展性和灵活性。代码与数据集已开源:https://github.com/AIDC-AI/Marco-Search-Agent。
基于语言的分割一直是计算机视觉领域的热门课题。尽管多模态大语言模型(MLLM)的最新进展为分割系统赋予了推理能力,但这些努力仍受限于MLLM固有的固化知识,导致其难以处理涉及实时信息或领域特定概念的实际场景。本文提出Seg-ReSearch这一新型分割范式,通过交错推理与外部检索突破现有方法的知识瓶颈,使分割系统能够处理超越MLLM固化知识的动态开放世界查询。为有效训练该能力,我们设计了分层奖励机制,将初始指导与渐进激励相协调,缓解稀疏结果信号与僵化分步监督之间的矛盾。针对评估需求,我们构建了OK-VOS基准测试集,该数据集明确要求视频对象分割任务具备外部知识支持。在OK-VOS及两个现有推理分割基准上的实验表明,Seg-ReSearch显著提升了先进方法的性能。代码与数据将在https://github.com/iSEE-Laboratory/Seg-ReSearch 发布。
知识蒸馏已成为将知识从强大大型语言模型向更精简高效模型迁移的关键技术。然而传统蒸馏方法面临知识冲突和高资源需求的挑战,尤其在利用多个教师模型时更为突出。本文提出知识纯化概念,通过将多个教师大模型的推理依据整合为单一依据,从而缓解冲突并提升效率。为验证知识纯化的有效性,我们进一步从多维度提出五种纯化方法。实验表明,这些方法不仅能提升蒸馏模型的性能,还可有效缓解知识冲突。此外,基于路由器的纯化方法展现出强大的泛化能力,印证了创新性纯化技术在优化多教师蒸馏、推动强大轻量化模型实际部署方面的潜力。
真正的自我进化要求智能体作为终身学习者,通过内化新经验来解决未来问题。然而,这一基础能力的精确衡量面临两大障碍:先验知识纠缠(即"新"知识可能已存在于预训练数据中)与推理复杂度纠缠(即失败可能源于问题难度而非知识回忆能力不足)。我们推出SE-Bench诊断环境,通过将NumPy库及其API文档混淆为随机命名的伪新包,构建出纯净测试场景:智能体需内化该包知识,并在无文档条件下完成简单编程任务——这些任务使用新API文档时极为简单,但基础模型若无此知识则无法解决。 我们的研究揭示三大发现:(1)开卷悖论:使用参考文档的训练会抑制知识留存,必须采用"闭卷训练"强制知识压缩至权重;(2)强化学习鸿沟:标准RL因PPO裁剪和负梯度无法完全内化新知识;(3)自我博弈的可行性:模型结合SFT后能从自生成的噪声任务中学习,但RL方法无效。总体而言,SE-Bench构建了面向知识内化自我进化的严谨诊断平台。代码与数据集详见https://github.com/thunlp/SE-Bench。
可微分匹配层与残差连接范式(通常通过熵正则化最优传输实现)是结构预测与架构扩展中的关键机制。然而,通过将ε退火至0来恢复离散排列或维持恒等映射的做法存在显著的不稳定性。本研究揭示了该问题的根本机制:早熟模态崩溃。通过分析Sinkhorn不动点映射的非正规动力学,我们发现了理论上的热力学速度极限:标准指数冷却策略会超越推断算子的收缩速率,而该速率以O(1/ε)退化。针对此问题,我们提出高效分段混合自适应稳定性控制(EPH-ASC),该自适应调度算法通过监控推断过程的稳定性,在FineWeb-Edu数据集的大规模训练中有效稳定流形约束超连接(mHC),通过强制线性稳定性定律成功防止后期梯度爆炸。
气候灾害通过损毁住房存量、破坏基础设施及降低路网可达性,正日益扰乱城市交通与应急响应系统的运行。本文提出Skjold-DiT——一种融合异构时空城市数据的扩散-变换器框架,能够预测建筑级气候风险指标,并显式纳入与智能车辆相关的交通网络结构与可达性信号(如应急可达范围与疏散路线约束)。具体而言,该框架通过生成经过校准且具备不确定性感知的可达性图层(可达范围、行程时间膨胀率及路线冗余度),为智能车辆路径规划与应急调度系统提供灾害条件约束的路径决策支持。Skjold-DiT集成三大核心组件:(1)Fjell-Prompt:基于提示词的跨城市迁移适配接口;(2)Norrland-Fusion:跨模态注意力机制,将灾害地图/影像、建筑属性、人口统计数据与交通基础设施统一至共享潜空间表征;(3)Valkyrie-Forecast:基于干预提示生成概率性风险轨迹的反事实模拟器。我们同步发布波罗的-里海城市韧性(BCUR)数据集,涵盖六座城市847,392条建筑级观测记录,包含多灾种标注(如洪涝与高温指标)及交通可达性特征。实验从预测质量、跨城市泛化能力、校准效果及下游交通相关指标(包括反事实干预下的可达性与灾害条件行程时间)四个维度进行评估。
后训练量化虽能降低大语言模型的计算成本,却会从根本上改变其社会偏见,这种变化是聚合指标无法捕捉的。我们首次对50个量化模型展开大规模研究,基于统一基准测试集PostTrainingBiasBench(包含13个封闭式和开放式偏见数据集)进行评估。研究发现了一种称为"量化诱发掩码式偏见翻转"的现象:尽管聚合偏见分数未变,但高达21%的响应会在量化后出现偏见与无偏见状态的翻转。这种翻转强烈受模型不确定性驱动,高不确定性响应的翻转概率是确定性响应的3-11倍。量化强度会放大该效应,4比特量化模型的行为变化比8比特模型多4-6倍。关键的是,这些变化会对不同人口群体产生不对称影响——某些群体的偏见可能恶化高达18.6%,而其他群体却改善14.1%,导致聚合结果呈现误导性的中立。更大模型并未展现出稳定的鲁棒性优势,且群体特异性偏移在不同模型家族间呈现不可预测的波动。我们的研究证明:压缩技术会根本性改变偏见模式,必须进行关键的后量化评估与干预,才能确保实际应用的可靠性。