每日精选AI研究论文及翻译
我们梦想着未来所有领域的点云数据能够汇聚一堂,共同构建一个惠及全域的统一模型。为实现这一愿景,我们推出Utonia——这是迈向跨领域训练统一自监督点云Transformer编码器的第一步,其训练数据涵盖遥感测绘、室外激光雷达、室内RGB-D序列、以物体为中心的CAD模型,以及从纯RGB视频中提取的点云。尽管这些数据在采集几何、密度和先验知识方面存在差异,Utonia仍能学习到跨领域一致的表示空间。这种统一不仅提升了感知能力,更揭示了仅在多领域联合训练时才会涌现的奇妙 emergent 行为。除感知任务外,我们还发现Utonia表示能赋能具身推理与多模态推理:将视觉-语言-动作策略与Utonia特征相结合可提升机器人操作性能,将其集成到视觉-语言模型中则能增强空间推理能力。我们希望Utonia能成为稀疏3D数据基础模型的奠基之作,为增强现实/虚拟现实、机器人和自动驾驶等下游应用提供支撑。
视觉世界为推进基础模型超越语言范畴提供了关键路径。尽管该方向日益受到关注,原生多模态模型的设计空间仍不透明。我们通过受控的从零开始预训练实验提供实证依据,在排除语言预训练干扰的情况下,分离出主导多模态预训练的关键因素。采用Transfusion框架(语言采用下一词预测,视觉采用扩散模型),我们在包含文本、视频、图文对甚至动作条件视频的多样化数据上进行训练。实验得出四个核心发现:(一)表征自编码器(RAE)通过卓越的视觉理解与生成能力,提供了最优的统一视觉表征;(二)视觉与语言数据具有互补性,能为下游能力产生协同效应;(三)统一多模态预训练自然导向世界建模,通用训练中自发涌现出多种能力;(四)专家混合模型(MoE)在实现高效多模态扩展的同时,自然诱导出模态专长化。通过等计算量分析,我们推导出双模态的扩展规律并揭示不对称性:视觉的数据需求显著高于语言。研究表明,MoE架构通过提供语言所需的高模型容量,同时适应视觉的数据密集型特性,有效调和了这种扩展不对称性,为真正统一的多模态模型铺平道路。
近期,统一多模态模型展现出强大的生成能力,但生成是否以及何时能促进理解仍不明确。现有基准缺乏对生成促进理解的具体任务进行系统性探索。为此,我们提出UniG2U-Bench综合基准,将生成式理解评估划分为7大类别30项子任务,涵盖从隐性到显性的不同程度视觉转换需求。通过对30余个模型的大规模评估,我们获得三项核心发现:1)统一模型整体表现弱于其基础视觉语言模型,且"先生成后回答"推理模式通常较直接推理产生性能下降;2)在空间智能、视觉错觉或多轮推理子任务中持续出现性能提升,其中增强的空间形状感知能力与多步中间图像状态被证明具有积极作用;3)具有相似推理结构的任务及共享架构的模型表现出相关性,表明生成与理解的耦合会在任务、预训练数据和模型架构上诱发类别一致的归纳偏差。这些发现揭示了需要更丰富的训练数据和新范式来充分释放统一多模态建模的潜力。
我们推出Qwen3-Coder-Next——专为代码智能体设计的开源权重语言模型。该模型拥有800亿参数规模,在推理时仅激活30亿参数,实现了高效推理与强大编码能力的平衡。本研究旨在探索先进训练方法如何突破小参数规模模型的能力极限。为实现这一目标,我们通过大规模合成可验证编程任务及其可执行环境进行智能体训练,借助训练中期反馈和强化学习直接从环境反馈中学习。在SWE-Bench和Terminal-Bench等智能体核心评测中,Qwen3-Coder-Next相对于其激活参数量展现出卓越性能。我们同步开源基础版本和指令微调版本,以支持代码智能体的学术研究与实际应用开发。
当前针对代码智能体的基准测试主要评估狭窄的、仓库特定的修复任务,忽略了现实世界中的关键挑战,如跨仓库推理、领域专业化问题解决、依赖驱动迁移及全仓库生成等。为填补这一空白,我们推出BeyondSWE综合基准,通过500个真实场景案例,从分辨率范围和知识范围两个维度拓展现有评估体系。实验结果表明存在显著能力差距:即使前沿模型成功率也停滞在45%以下,且没有单一模型能在所有任务类型中保持稳定表现。为系统研究外部知识的作用,我们开发了SearchSWE框架,将深度搜索与编码能力相结合。实验表明搜索增强带来的提升并不稳定,有时甚至会导致性能下降,这凸显了在编码任务中模拟开发者交替进行搜索与推理工作流程的难度。本研究既提供了真实且具有挑战性的评估基准,也构建了灵活框架以推动更强大代码智能体的研究发展。
近期生成式奖励模型(GRM)的研究进展表明,扩展思维链(CoT)推理长度能显著提升评估可靠性。然而现有研究主要依赖非结构化长度扩展,忽视了不同推理机制的效果差异:广度思维链(B-CoT,即多维度原则覆盖)与深度思维链(D-CoT,即实质性判断严谨性)。为此,我们提出Mix-GRM框架,通过模块化合成流程将原始理据重构为结构化B-CoT与D-CoT,继而采用监督微调(SFT)和可验证奖励强化学习(RLVR)来内化并优化这些机制。全面实验表明,Mix-GRM在五项基准测试中创下最新性能记录,平均超越主流开源奖励模型8.2%。研究结果揭示出明显的推理机制分化:B-CoT适用于主观偏好任务,而D-CoT在客观正确性任务中表现更优。因此,推理机制与任务类型的错配会直接导致性能下降。此外,我们发现RLVR具有开关放大器效应,会诱发模型根据任务需求自发分配推理风格的极化现象。合成数据与模型已发布于https://huggingface.co/collections/DonJoey/mix-grm,代码已开源至https://github.com/Don-Joey/Mix-GRM。
角色动画旨在通过将驱动视频中的运动动态迁移至参考图像,生成栩栩如生的视频。近年来生成模型的突破为高保真角色动画开辟了新路径。本文提出Kling-MotionControl——一个基于DiT的统一框架,专为鲁棒、精准且富有表现力的整体角色动画而设计。该模型通过 cohesive 系统中的分治策略,协调针对身体、面部和手部不同特性定制的异构运动表征,有效平衡了大尺度结构稳定性与细粒度关节表现力。为确保跨身份泛化鲁棒性,我们引入自适应身份无关学习机制,实现对从真实人类到风格化卡通等多样化角色的自然运动重定向。同时通过精细的身份注入与融合设计,结合基于全景参考语境的主题库机制,确保外观特征的高度还原。为提升实用性,我们采用多阶段蒸馏的先进加速框架,将推理速度提升超10倍。Kling-MotionControl凭借智能语义运动理解与精准文本响应能力脱颖而出,可实现超越视觉输入的灵活控制。人工偏好评估表明,Kling-MotionControl在整体运动控制、开放域泛化及视觉质量连贯性方面均优于主流商业与开源方案,确立了其在高质量、可控且逼真的角色动画领域的领先地位。
大型语言模型(LLMs)正日益应用于社会敏感领域,但其从意图偏差到人格不一致等不可预测行为带来了显著风险。我们提出SteerEval——一个分层评估基准,用于在语言特征、情感和人格三大领域评估LLM的可控性。每个领域均构建了三个规范层级:L1(表达内容)、L2(表达方式)和L3(实例化方式),将高层次行为意图与具体文本输出相连接。通过SteerEval,我们系统评估了当代调控方法,发现控制效果往往在更细粒度层级出现衰减。该基准为构建安全可控的LLM行为提供了原则化、可解释的评估框架,为未来研究奠定基础。
基于指令的视频编辑技术发展迅速,但现有方法常因自然语言在描述复杂视觉细节时的固有局限而难以实现精确的视觉控制。尽管参考引导编辑提供了有效解决方案,但其潜力目前受限于高质量配对训练数据的稀缺。为弥补这一空白,我们提出一种可扩展的数据生成流程,通过图像生成模型创建合成参考支架,将现有视频编辑对转换为高保真训练四元组。基于此流程,我们构建了专为指令-参考跟随任务设计的大规模数据集RefVIE,并建立RefVIE-Bench进行全面评估。此外,我们提出统一编辑架构Kiwi-Edit,通过可学习查询与潜在视觉特征的协同实现参考语义引导。通过渐进式多阶段训练策略,我们的模型在指令跟随和参考保真度方面取得显著提升。大量实验表明,我们的数据与架构开创了可控视频编辑的新标杆。所有数据集、模型及代码均已发布于https://github.com/showlab/Kiwi-Edit。
在部分可观测的高维领域中,捕捉时序依赖关系对于基于模型的强化学习(MBRL)至关重要。我们提出NE-Dreamer——一种无解码器的MBRL智能体,其利用时序变换器根据潜在状态序列预测下一步的编码器嵌入表示,直接在表征空间中对齐时序预测目标。该方法使NE-Dreamer无需重构损失或辅助监督即可学习具有一致性且可预测的状态表征。在DeepMind控制套件测试中,NE-Dreamer达到或超越了DreamerV3及主流无解码器智能体的性能。在涉及记忆与空间推理的DMLab挑战任务子集上,NE-Dreamer实现了显著性能提升。这些结果表明,基于时序变换器的下一嵌入预测为复杂部分可观测环境中的MBRL提供了一种高效且可扩展的框架。
DEEPTHINK方法通过生成、优化和聚合候选解决方案群体来提升推理能力,从而在复杂数学与科学任务中实现强劲性能。然而,现有框架在推理过程中往往缺乏可靠的正误判断信号,这导致群体增强瓶颈——更深层的思考反而会放大错误、压制正确的少数派解决方案,并对额外计算资源产生微弱回报。本文提出对DEEPTHINK系统的功能解构,并引入PRISM算法:一种基于过程奖励模型(PRM)的推理引导机制,利用步骤级验证来指导群体优化与解决方案聚合。在优化阶段,PRISM将候选解视为PRM定义的能量场中的粒子,通过分数引导的重采样和随机优化重塑群体分布,从而在保持多样性的同时将概率质量集中于更高质量的推理路径。在数学与科学基准测试中,PRISM与现有DEEPTHINK方法相比具有竞争力或更优表现:使用gpt-oss-20b模型时,在AIME25、HMMT25和GPQA Diamond数据集上分别达到90.0%、75.4%和71.4%的准确率,同时达到或超越gpt-oss-120b的表现。此外,我们的分析表明PRISM在优化过程中能实现持续的正向修正,在初始群体包含极少正确候选解时仍保持可靠性,且其计算精度往往处于帕累托最优边界。
随着大语言模型的数学能力向国际数学奥林匹克竞赛水平逼近,训练与评估所需的高难度优质题目稀缺已成为关键瓶颈。与此同时,近期出现的代码智能体在自主编程与推理方面展现出卓越能力,表明代码执行可成为数学实验的可扩展环境。本文研究代码智能体将现有数学问题自主演化为更复杂变体的潜力,提出一种多智能体框架,该框架在执行问题演化时能同步验证生成问题的可解性与难度提升。实验表明,在充分进行测试阶段探索的前提下,代码智能体能够合成结构新颖且难度超越原题的新问题。本研究为代码驱动智能体在可扩展计算环境中合成高难度数学推理问题提供了实证依据,相关数据详见https://github.com/TarferSoul/Code2Math。
人类推理常基于有限信息得出概率性结论。其最简形式表现为:从前提出发进行推断,该推断虽非前提的必然结果,但在给定前提下具有较高可能性。尽管推理大语言模型在逻辑与数学任务中表现优异,但其在这种开放式、非确定性推理中的行为机制仍待探索。我们提出ProbCOPA数据集,包含210个手工构建的英文概率推理案例,每个案例均获得25-30名人类参与者的推理可能性标注。研究发现人类反馈呈现梯度化差异,揭示了数据集中推理的概率判断特性。通过将这些人本判断与八个前沿推理大语言模型的输出对比,我们发现模型始终无法生成类人的概率分布。进一步分析大语言模型的推理链,我们发现了其评估此类推理的共性模式。本研究揭示了人机推理的持续性差异,强调需要超越确定性场景的推理评估框架。
代理型语言模型的安全运行机制与聊天模型存在根本差异:这类模型需进行规划、调用工具并执行长周期行动,其中任何单步失误(如访问文件或输入凭证)都可能造成不可逆损害。现有对齐方法主要针对静态生成和任务完成进行优化,在面临序列决策、对抗性工具反馈及过度自信的中间推理时往往失效。我们提出MOSAIC后训练框架,通过将安全决策显式化与可学习化,实现代理在多步骤工具使用中的安全对齐。该框架将推理过程构建为“规划-检查-执行/拒绝”循环,使显式安全推理和拒绝成为一等操作。为解决轨迹级标签缺失问题,我们采用基于偏好的强化学习与轨迹对比较方法,有效捕捉标量奖励常忽略的安全差异。在Qwen2.5-7B、Qwen3-4B-Thinking和Phi-4三种模型架构上的零样本测试表明,MOSAIC在分布外基准(涵盖有害任务、提示注入、良性工具使用及跨域隐私泄露)中可将有害行为降低达50%,在注入攻击场景下有害任务拒绝率提升超20%,同时减少隐私泄露并保持或提升良性任务性能,展现出跨模型、跨领域及代理场景的强健泛化能力。
从单目视频中估计每个像素的三维轨迹对于全面理解视频的三维动态至关重要且前景广阔。近期单目三维跟踪研究展现出卓越性能,但受限于仅能跟踪首帧稀疏点或采用耗时的基于优化的稠密跟踪框架。本文提出一种前馈式模型Track4World,可在世界坐标系中实现对每个像素的高效整体三维跟踪。该模型基于VGGT风格视觉Transformer编码的全局三维场景表示,采用新颖的三维关联机制,能够同步估计任意帧对间的像素级二维与三维稠密光流。结合重建的三维几何信息,所估计的场景流可实现视频中每个像素的后续高效三维跟踪。在多个基准测试上的大量实验表明,本方法在二维/三维光流估计和三维跟踪任务中持续超越现有方法,凸显了其在真实世界四维重建任务中的鲁棒性与可扩展性。
我们将最终的大型语言模型(LLM)softmax分类器重新阐释为基于能量的模型(EBM),在推理过程中将序列到序列的概率链分解为多个相互作用的EBM。这种原理性方法使我们能够追踪解码过程中的"能量溢出"现象,并通过实验证明其与事实错误、偏见及故障存在相关性。与Orgad等人(2025)的研究类似,我们的方法能定位具体答案标记并检测幻觉现象。但关键创新在于,我们无需训练探针分类器或进行激活值消融即可实现该目标。我们引入了两种完全无需训练的指标:能量溢出值(捕捉连续生成步骤间本应匹配的能量值差异)和边缘化能量值(可在单步生成中测量),二者均直接源自输出逻辑值。在涵盖前沿LLM(包括LLaMA、Mistral和Gemma)的九个基准测试及Qwen3的代数运算合成任务上的实验表明,该方法在幻觉检测和跨任务泛化方面表现出稳健且具有竞争力的性能。值得注意的是,这些结果同时适用于预训练模型和指令微调变体,且不产生任何训练开销。代码已开源:github.com/OmnAI-Lab/spilled-energy
通过后训练增强大型语言模型(LLM)的推理能力常受效率与灾难性遗忘之间权衡的制约。尽管现有研究强调在策略数据对缓解遗忘的作用,我们通过理论与实验双重验证揭示了一个被忽视的关键机制:直接偏好优化(DPO)奖励估计中固有的隐式正则化效应。基于此,我们提出外科手术式后训练(SPoT)新范式,旨在高效优化推理能力的同时保留已习得的先验知识。SPoT包含两大核心组件:(1)数据校正流程,通过Oracle对错误推理步骤进行最小化编辑的外科手术式修正,生成贴近模型分布的数据;(2)基于奖励的二元交叉熵目标函数。与DPO的相对排序机制不同,该目标将推理正确性视为二元分类问题,实施解耦的监督信号。实验表明,仅使用4千个校正后的数学数据对,SPoT即可在8×H800 GPU上通过28分钟训练,将Qwen3-8B模型在领域内及分布外任务上的平均准确率提升6.2%。代码地址:https://github.com/Visual-AI/SPoT
文本到图像模型在真实性与可控性方面发展迅猛,近期方法通过利用长文本细粒度描述支持精细化生成。然而,核心的参数化鸿沟依然存在:现有模型依赖描述性语言,而专业工作流程要求对物体位置、尺寸和颜色进行精确数值控制。本研究提出BBQ模型——一种基于统一结构化文本框架的大型文本到图像生成系统,可直接通过数值化边界框和RGB三原色进行条件控制。我们通过训练带有参数化标注的增强型描述文本,在不改变模型架构或引入推理时优化的前提下,实现了精确的空间与色彩控制。该方法还支持直观的用户交互界面(如物体拖拽和取色器),用精确熟悉的操控方式取代了模糊的迭代式提示词调整。综合评估表明,BBQ在边界框对齐方面表现优异,并在RGB色彩保真度上超越了现有先进基线模型。更广泛而言,我们的研究成果印证了全新范式:将用户意图转化为中间结构化语言,由基于流式的Transformer作为渲染器进行解析,自然兼容数值化参数输入。
现实世界中用户对LLM智能体的请求往往存在信息不完整的问题。智能体需要通过交互获取缺失信息以做出正确的下游决策。然而当前基于多轮GRPO的方法通常依赖轨迹级奖励计算,这会导致信用分配问题及 rollout 组内优势信号不足。可行的解决思路是以细粒度识别有价值的交互轮次,从而驱动更具针对性的学习。为此,我们提出信息驱动策略优化(InfoPO)框架,将多轮交互建模为主动不确定性削减过程,通过计算信息增益奖励来量化关键交互轮次的价值——该奖励机制会对比实际反馈与掩码反馈反事实场景下智能体后续行动分布的变化。该框架通过自适应方差门控融合将此信号与任务结果相结合,在保持任务导向的同时识别信息重要性。在意图澄清、协同编程和工具增强决策等多样化任务中,InfoPO均显著优于提示学习和多轮强化学习基线方法。该框架还展现出用户模拟器偏移下的鲁棒性,并能有效泛化至环境交互型任务。总体而言,InfoPO为优化复杂人机协作提供了原则性强且可扩展的机制。代码已开源:https://github.com/kfq20/InfoPO。
当前视频编辑模型虽已取得显著成果,但多数仍依赖大规模配对数据集。然而大规模采集自然对齐的视频配对数据极具挑战性,尤其对于本地视频编辑数据而言,这已成为关键瓶颈。现有解决方案通过全局运动控制将图像编辑技术迁移至视频领域,实现无需配对数据的视频编辑,但此类设计难以保持背景与时间一致性。本文提出NOVA框架:稀疏控制与稠密合成,一种无需配对数据的视频编辑新方法。具体而言,稀疏分支通过用户编辑的视频关键帧提供语义指导,稠密分支则持续融合原始视频的运动与纹理信息以保持高保真度与连贯性。此外,我们引入退化模拟训练策略,通过人工退化视频训练使模型学习运动重建与时间一致性,从而摆脱对配对数据的依赖。大量实验表明,NOVA在编辑保真度、运动保持和时间连贯性方面均优于现有方法。
视觉-语言-动作(VLA)模型是实现具身智能的重要路径,但现有方法常忽略视觉动态中蕴含的预测性与时序因果结构。基于世界模型的VLA通过预测未来帧解决该问题,却因重构冗余背景而浪费模型容量。潜在动作VLA虽能紧凑编码帧间变换,但缺乏时序连续的动态建模与世界知识。为突破这些局限,我们提出CoWVLA(世界链VLA),通过解耦的潜在运动表征统一世界模型的时序推理能力。首先,采用预训练视频VAE作为潜在运动提取器,将视频片段显式解耦为结构与运动潜变量;随后在预训练阶段,VLA根据指令与初始帧推断连续潜在运动链并预测片段终止帧;最后在协同微调阶段,通过自回归解码器统一建模稀疏关键帧与动作序列,实现潜在动态与离散动作预测的对齐。该设计既保留了世界模型的时序推理优势与世界知识,又兼具潜在动作的紧凑性与可解释性,实现了高效视觉运动学习。在机器人仿真基准上的大量实验表明,CoWVLA超越现有世界模型与潜在动作方法,并保持适中计算效率,彰显其作为更有效VLA预训练范式的潜力。项目网站详见https://fx-hit.github.io/cowvla-io。
大型语言模型(LLMs)从探索性工具向社会科学中主动"硅基主体"的转型,尚缺乏操作有效性的广泛验证。本研究提出条件化评论预测(CCP)任务,通过对比模型生成内容与真实数字痕迹,评估模型对特定刺激下用户评论行为的预测能力。该框架为当前LLMs模拟社交媒体用户行为的能力提供了严谨的评估方案。我们在英语、德语和卢森堡语场景下对开源8B参数模型(Llama3.1、Qwen3、Ministral)进行测试,通过系统比较提示策略(显式与隐式)及监督微调(SFT)的影响,发现低资源环境中存在形式与内容的解耦现象:SFT虽能对齐文本输出的表层结构(长度与句法),却削弱了语义根基。此外,研究证明在微调条件下,显式条件设置(生成用户画像)会变得冗余,因为模型能直接从行为历史中进行潜在推理。这些发现对当前"朴素提示"范式提出挑战,并为高保真模拟提供了优先采用真实行为痕迹而非描述性人格的操作指南。
将视觉表征学习与文本到图像生成统一于单一模型始终是多模态学习的核心挑战。我们提出DREAM框架,通过联合优化判别式与生成式目标实现强大的视觉表征学习。该框架基于两项关键技术:训练阶段采用渐进式掩码预热策略,从最小化掩码建立表征学习所需的对比对齐,逐步过渡到全掩码以实现稳定生成训练;推理阶段通过语义对齐解码技术,将部分掩码的候选图像与目标文本对齐并优选最佳样本进行解码,在无外部重排器情况下提升图文保真度6.3%。仅使用CC12M数据集训练时,DREAM在ImageNet线性探测准确率达72.7%(较CLIP提升1.1%),FID指标为4.25(较FLUID提升6.2%),并在小样本分类、语义分割及深度估计任务中表现一致优异。结果表明判别式与生成式目标具有协同效应,可构建兼具视觉理解与生成能力的统一多模态模型。
基于大型语言模型的自动化科学发现正在重塑从构思到实验的研究全周期,但现有智能体仍难以自主处理科学实验收集的原始数据。我们推出以数据为中心的端到端系统SciDER,其独特之处在于通过专业化智能体协同解析分析原始科学数据,基于具体数据特征生成假设与实验设计,并编写执行相应代码。在三个基准测试中的评估表明,SciDER凭借自进化记忆模块与评审引导的反馈循环机制,在专业化数据驱动科学发现任务中表现卓越,其性能超越通用智能体与前沿模型。作为模块化Python套件分发,我们同时提供轻量级Web界面及易用的PyPI软件包,旨在加速自主数据驱动研究进程,让所有科研人员与开发者都能便捷使用。
无分类器引导(CFG)已成为提升基于流的扩散模型语义对齐效果的核心技术。本文提出统一框架CFG-Ctrl,将CFG重新诠释为对一阶连续时间生成流的控制方法,利用条件-无条件差异作为误差信号来调整速度场。基于此视角,我们将原始CFG归纳为固定增益的比例控制器(P控制),而典型改进版本则衍生出扩展的控制律设计。然而现有方法主要依赖线性控制,易导致不稳定、超调及语义保真度下降等问题,尤其在较大引导尺度下更为显著。为此,我们提出滑模控制CFG(SMC-CFG),通过强制生成流向快速收敛的滑模流形靠拢来解决上述问题。具体而言,我们基于语义预测误差定义指数型滑模面,并引入切换控制项建立非线性反馈引导校正机制。此外,我们通过李雅普诺夫稳定性分析为有限时间收敛性提供理论支撑。在Stable Diffusion 3.5、Flux和Qwen-Image等文生图模型上的实验表明,SMC-CFG在语义对齐效果上优于标准CFG,并在宽泛的引导尺度范围内展现出更强鲁棒性。项目页面:https://hanyang-21.github.io/CFG-Ctrl
随着大语言模型在基础评测集上渐趋饱和,研究前沿已从生成能力转向自动化评估的可靠性。我们发现,当标准“LLM即评委”协议应用于高年级本科至研究生初级数学水平时,存在系统性对齐差距。为量化这一现象,我们推出QEDBench——首个大规模双标尺对齐基准,通过对比课程特定评分标准与专家常识准则,系统衡量大学数学证明与人类专家的一致性。基于双评估矩阵(7位评委×5个求解器)对超1000小时人工评估数据的分析,揭示某些前沿评估模型(如Claude Opus 4.5、DeepSeek-V3、Qwen 2.5 Max和Llama 4 Maverick)存在显著正向偏差(平均分数膨胀分别达+0.18、+0.20、+0.30、+0.36)。此外,我们发现在离散数学领域存在关键推理断层:虽然Gemini 3.0 Pro达到顶尖水平(人工评估均分0.91),但其他推理模型如GPT-5 Pro和Claude Sonnet 4.5在离散领域表现显著下滑,其离散数学人工评估均分分别降至0.72和0.63,图论领域则降至0.74和0.50。除研究成果外,我们同步公开QEDBench作为评估和改进AI评委的公共基准,代码库已发布于https://github.com/qqliu/Yale-QEDBench。
基于大语言模型(LLM)驱动的多智能体系统(MAS)通过预定义的交互拓扑协调专业智能体,在竞争级代码生成等复杂任务中展现出巨大潜力。最新研究表明,精心设计的多智能体工作流与通信图能通过协同推理显著提升代码生成性能。然而,现有方法既未根据任务难度自适应调整拓扑密度,也未利用执行反馈在实例内部迭代优化拓扑结构,导致通信冗余与性能瓶颈。为此,我们提出AgentConductor:一种以LLM编排智能体为核心的强化学习优化MAS,可实现端到端反馈驱动的动态交互拓扑生成。针对每个查询,AgentConductor通过两大创新机制推断智能体角色与任务难度,进而构建任务自适应、密度感知的分层有向无环图(DAG)拓扑。其一,我们设计了新型拓扑密度函数,以数学方式表征多智能体交互的通信特征;其二,采用难度区间划分法避免过度剪枝,实现各难度层级拓扑密度上界的精确度量与更细粒度控制。在三个竞争级与两个基础代码数据集上的实验表明,AgentConductor在准确率上达到最优水平,较最强基线在pass@1准确率提升最高达14.6%,拓扑密度降低13%,令牌成本减少68%。
大型语言模型展现出复杂精妙的能力,但其内部运作机制仍是核心挑战。根本性障碍在于:训练过程筛选的是行为表现而非电路结构,因此多种权重配置均可实现相同功能。哪些内部结构反映真实计算过程,哪些只是特定训练过程的偶然产物?本研究提取出算法核心——即任务执行所必需且充分的紧凑子空间。独立训练的Transformer模型虽学习到不同权重,但最终收敛至相同的核心结构。马尔可夫链Transformer将三维核心嵌入近乎正交的子空间,却能复现完全相同的转移谱;模加运算Transformer在顿悟期发现紧凑循环算子,后期发生膨胀,由此建立从记忆到泛化转变的预测模型。GPT-2语言模型通过单一轴线控制主谓一致,翻转该轴线即可在全尺度生成过程中反转语法数。这些结果揭示了跨越不同训练过程与模型尺度的低维不变量,表明Transformer计算本质上是围绕紧凑共享的算法结构组织的。针对此类计算本质(而非实现细节)的不变量进行研究,或将推动机械可解释性领域的突破。
从串行计算到并行计算的转变对现代高性能应用至关重要,但并发编程的陡峭学习曲线阻碍了这一进程。这一挑战在非规则数据结构(如稀疏图、不平衡树和非均匀网格)中尤为突出——静态调度在此失效,数据依赖关系难以预测。当前的大语言模型在处理这类任务时常常严重失败,生成的代码存在隐蔽的竞态条件、死锁及次优扩展性问题。 我们通过ParEVO框架弥合这一鸿沟,该框架专为非规则数据的高性能并行算法合成而设计。我们的贡献包括:(1)Parlay-Instruct语料库:包含13,820个任务的精选数据集,通过"批判-优化"流程合成,明确筛选出能有效利用工作-跨度并行原语且经验证高效的算法;(2)专项优化的DeepSeek、Qwen和Gemini模型:通过微调使概率生成与ParlayLib库的严格语义对齐;(3)进化式编程代理:利用编译器、动态竞态检测器和性能分析器的反馈迭代修复代码,提升"最后一公里"的正确性。 在ParEval基准测试中,ParEVO在测试集上实现平均106倍(最高1103倍)加速,在复杂非规则图问题上保持稳健的13.6倍加速,超越现有商业模型。此外,我们的进化方法媲美顶尖人类专家基线,在特定高非规则内核上实现最高4.1倍加速。源代码与数据集详见https://github.com/WildAlg/ParEVO。
可验证奖励强化学习(RLVR)在提升自回归模型方面取得了显著成功,尤其在数学推理和代码生成等需要正确性的领域表现突出。然而,由于精确似然计算的难处理性,直接将此类范式应用于扩散大语言模型(dLLM)存在根本性障碍,这迫使现有方法只能依赖高方差近似。为弥合这一差距,我们提出了无似然策略优化(LFPO)——一种将向量场流匹配概念映射到离散词元空间的原生框架。具体而言,LFPO将对齐问题表述为几何速度校正,通过对比更新直接优化去噪逻辑值。该设计有效规避了似然近似固有的误差,实现了精确的梯度估计。此外,LFPO通过从中间步骤预测最终解来强化一致性,有效拉直概率流路径,从而以显著更少的迭代次数实现高质量生成。大量实验表明,LFPO不仅在代码和推理基准测试中超越现有最优基线,还通过减少扩散步骤将推理速度提升约20%。
专家混合(MoE)架构已成为在保持计算效率的同时扩展神经网络能力的重要范式。然而,传统MoE实现依赖两个刚性设计假设:(1)采用固定Top-K路由机制,每个令牌始终激活K个专家;(2)所有网络层采用均匀的专家分配策略。本文提出DynaMoE新型框架,通过动态令牌级专家激活与分层自适应容量分配,突破了这两项约束。DynaMoE引入基于输入复杂度动态调整单个令牌激活专家数量的原理性路由机制,同时构建了六种跨网络深度的专家容量调度策略(包括递减型、递增型、金字塔型和波动型)。我们理论分析了动态路由的表达能力增益,并推导了计算效率的边界。通过在MNIST、Fashion-MNIST、CIFAR-10(图像分类)和Recycling-the-Web(语言建模)数据集上开展多规模模型实验,证明DynaMoE相较于静态基线具有更优的参数效率。核心发现表明:最优专家调度策略具有任务与规模依赖性——图像分类任务中递减型调度(将容量集中于浅层)优于均匀基线;语言建模任务的最优策略随模型规模变化(Tiny模型适用递减型,Small模型适用递增型,Medium模型适用均匀型)。动态路由机制还能降低训练过程中的梯度方差,提升收敛稳定性。DynaMoE为神经网络自适应计算建立了新框架,为MoE架构设计提供了原理性指导。
科学发现必须通过清晰传达才能实现其全部潜力。若缺乏有效沟通,即便是最具突破性的研究成果也可能面临被忽视或误解的风险。目前科学家主要通过同行评审机制来交流工作并获取学界反馈,但现行体系常因评审意见不一致而阻碍论文修改完善,限制其潜在影响力。本文提出一种基于大语言模型的新型方法APRES,能够依据评估标准自动优化科研论文文本。我们的自动化方法发掘出对论文未来引用量具有高预测力的评估体系,并将其与APRES整合为自动修订系统以提升论文质量与影响力。关键在于,这一过程需在不改变核心科学内容的前提下完成。实验证明,APRES将未来引用预测的平均绝对误差较次优基线降低了19.6%,且经修订的论文在79%的情况下获得人类专家评审的青睐。我们的研究为将大语言模型作为作者投稿前压力测试工具提供了有力实证支持。需要强调的是,本研究旨在增强而非取代人类评审的核心作用——毕竟唯有人类才能甄别真正重要的科学发现,引领科学事业推动认知进步、造福人类社会。
机器遗忘技术旨在使模型能够遗忘特定数据,这对保障数据隐私和模型可靠性至关重要。然而,当模型从数据的伪相关中习得非预期偏差时,该技术在现实场景中的有效性将大打折扣。本文深入探讨了从这类带有偏差的模型中实施遗忘所面临的独特挑战。我们发现了一种名为"捷径遗忘"的新现象:模型呈现出"易学难忘"的特性——模型难以遗忘易习得的偏差对齐样本,不仅未能遗忘类别属性,反而会消除偏差属性,这反而可能反常地提升本应被遗忘类别的准确率。为解决此问题,我们提出CUPID遗忘框架,其灵感来源于不同偏差样本在损失景观锐度上存在差异的发现。该方法首先基于样本锐度将待遗忘集划分为因果近似子集和偏差近似子集,随后将模型参数解耦为因果路径与偏差路径,最终通过将优化后的因果梯度与偏差梯度分别导向对应路径来实现精准参数更新。在Waterbirds、BAR和Biased NICO++等偏差数据集上的大量实验表明,我们的方法实现了最先进的遗忘性能,并有效缓解了捷径遗忘问题。
空间可变动态卷积为深度神经网络提供了空间自适应性的原理性集成方法。然而医学分割领域的主流设计通常通过平均池化生成动态卷积核,这种操作会隐式地将高频空间细节压缩为粗糙的空间聚合表征,导致预测结果过度平滑而降低细粒度临床结构的还原精度。针对这一局限,我们提出一种结构引导动态卷积(SGDC)机制,通过显式监督的结构提取分支来引导动态卷积核与门控信号的生成,实现结构感知的特征调制。具体而言,该辅助分支提取的高精度边界信息与语义特征相融合,从而实现空间精准的特征调整。通过用像素级结构引导替代上下文聚合,所提设计有效避免了平均池化引起的信息损失。实验结果表明,SGDC在ISIC 2016、PH2、ISIC 2018和CoNIC数据集上达到最先进性能,豪斯多夫距离(HD95)降低2.05,边界还原精度显著提升,并较基于池化的基线模型获得0.99%-1.49%的稳定IoU增益。此外,该机制展现出向其他细粒度结构敏感视觉任务(如小目标检测)拓展的潜力,为医学图像分析中的结构完整性保持提供了原理性解决方案。为促进可复现性并推动后续研究,我们的SGE与SGDC模块实现代码已公开于https://github.com/solstice0621/SGDC。
尽管当前文生图模型具备卓越能力,但仍易生成不安全及有害内容。虽然激活引导技术为推理时干预提供了可行方案,但我们发现线性激活引导在应用于良性提示时常常会降低图像质量。为应对这一权衡问题,我们首先构建了SafeSteerDataset——一个包含2300对高余弦相似度的安全/不安全提示对比数据集。基于此数据,我们提出条件激活传输框架,该框架采用基于几何的调节机制和非线性传输映射。通过将传输映射限定在不安全激活区域内生效,我们最大程度减少对良性查询的干扰。我们在Z-Image和Infinity两种前沿架构上验证了该方法。实验表明,CAT能有效适配不同骨干网络,在保持未引导生成图像保真度的同时,显著降低攻击成功率。注:本文包含可能引发不适的文本与图像内容。
近年来,大型语言模型(LLM)的突破使得聊天机器人能力显著提升。然而现有系统多聚焦于单用户场景,难以适应多人群组聊天环境——在这种动态复杂的语境中,智能体需要更主动精准的干预能力。传统方法通常依赖LLM同时完成推理与生成任务,导致令牌消耗量大、可扩展性有限,并存在隐私风险。为应对这些挑战,我们提出GroupGPT:一种面向多用户聊天助手的令牌高效且隐私保护的智能体框架。该框架采用"小模型-大模型"协同架构,将干预时机判断与响应生成解耦,从而实现高效精准的决策。该框架还支持表情包、图像、视频及语音消息等多模态输入。我们进一步构建了MUIR基准数据集,包含2,500段带干预标签与原理注释的群聊片段,支持对干预时机准确性与响应质量的评估。通过在MUIR上对从大型语言模型到轻量级模型的系统测试,大量实验表明GroupGPT能生成精准适时的响应,在LLM评估中平均得分达4.72/5.0,并在多样化群聊场景中获得用户好评。与基线方法相比,GroupGPT可降低最高3倍的令牌消耗,同时在云端传输前对用户消息进行隐私净化。代码已开源:https://github.com/Eliot-Shen/GroupGPT。
我们推出Whisper-RIR-Mega基准数据集,该数据集包含配对的纯净与混响语音,用于评估自动语音识别(ASR)系统对房间声学的鲁棒性。每个样本将纯净的LibriSpeech语音片段与经过RIR-Mega语料库中真实房间脉冲响应卷积处理的同一语音片段配对,并按照混响时间(RT60)和直达混响声能比(DRR)进行分层划分。我们在1600个测试样本上评估了五种规模的Whisper模型(从tiny到large-v3),并报告了纯净与混响条件下的词错误率(WER)和字错误率(CER)。实验表明混响会持续降低所有规模模型的性能,其导致的WER损失范围在0.12至1.07个百分点之间,具体数值因模型而异。我们公开该数据集、评估代码和基线结果,以支持鲁棒ASR研究的可复现性。
微妙且间接的仇恨言论仍是网络安全研究中尚未充分探索的挑战,尤其当恶意意图潜藏于具有误导性或操纵性的叙事之中时。现有仇恨言论数据集主要捕捉显性毒性,未能充分体现错误信息煽动或常态化仇恨的微妙方式。为填补这一空白,我们推出HateMirage——一个由虚假仇恨评论构成的新型数据集,旨在推动针对虚假或扭曲叙事所引发仇恨的推理与可解释性研究。该数据集通过识别事实核查机构已广泛辟谣的错误信息主张,并追踪相关YouTube讨论构建而成,最终收录4,530条用户评论。每条评论均沿三个可解释维度进行标注:目标(受影响群体)、意图(评论背后的潜在动机或目的)及影响(其潜在社会后果)。与HateXplain和HARE等提供词元级或单维度推理的现有可解释性数据集不同,HateMirage引入了多维解释框架,捕捉错误信息、危害与社会后果之间的相互作用。我们使用ROUGE-L F1和Sentence-BERT相似度在HateMirage上对多个开源语言模型进行基准测试,以评估解释连贯性。结果表明,解释质量可能更依赖于预训练数据的多样性和面向推理的数据,而非仅取决于模型规模。通过将错误信息推理与危害归因相结合,HateMirage为可解释仇恨检测与负责任AI研究设立了新基准。
面向多轮交互的测试时策略适配(T2PAM)对于在推理阶段使大语言模型(LLMs)与动态用户需求保持对齐至关重要。然而,现有范式通常将测试时适配视为单维度问题,要么单纯优化指令(提示工程),要么仅调整权重(测试时训练),忽略了交互失败源于语义模糊性与能力不足的耦合作用。我们认为这两条优化路径并非简单叠加而是协同增效:语义清晰度是有效参数更新的前置调节器。为此,我们提出ROSA2框架,将交互重新定义为在词语与权重的异构空间上的联合优化问题。通过数学分解误差信号,ROSA2利用文本梯度修正意图模糊性,通过参数更新弥补能力差距。理论上,我们证明这种协同适配能严格降低收敛所需的参数偏移量。实验表明,ROSA2在MATH数据集上以30%的优势超越现有最优基线,同时将交互轮次减少40%,证实了上下文优化能真正释放参数更新的潜力。
视频大语言模型(VLLMs)虽展现出强大的视频理解能力,却因冗余视觉标记存在效率低下的问题。现有剪枝方法主要针对帧内空间冗余或在LLM浅层进行内部剪枝,导致时空维度缩减欠佳,且未能充分利用长上下文压缩潜力。这些方法往往在合并或剪枝过程中丢失了细微但富含信息的上下文。本文提出一种新视角,通过局部-全局最优传输(AOT)在帧内与帧间精心构建标记锚点,以全面聚合信息化上下文。具体而言,我们首先在注意力机制引导下建立每帧的局部与全局感知标记锚点,随后通过最优传输从被剪枝标记中聚合信息化上下文,构建帧内标记锚点。进而基于时序视频片段,将每个片段的首帧作为关键帧锚点,通过最优传输聚合连续帧中的相似信息,同时保留差异化标记以表征时序动态,从而实现无需训练的高效标记缩减。大量实验表明,我们提出的AOT方法在主流视频LLMs的各类长短视频基准测试中均取得优异性能,在保持时序与视觉保真度的同时显著提升计算效率。项目页面:https://tyroneli.github.io/AOT{AOT}。
本文提出了一种基于翻转图方法的开源C++框架,用于探索快速矩阵乘法方案。该框架支持二元域(Z_2)、模三域(Z_3)和整数三元域(Z_T={-1,0,1})三种系数环,同时实现了固定维度和元维度两种搜索算子。通过采用高效的系数向量比特级编码和OpenMP并行技术,该工具可在商用硬件上实现大规模探索。研究覆盖了从(2×2×2)到(16×16×16)的680种方案,其中276种采用Z_T系数,117种采用整数系数。借助该框架,79个矩阵乘法方案的乘法复杂度(秩)得到优化,特别发现了一个仅需115次乘法的新4×4×10方案,其指数ω≈2.80478,在该特定维度上超越了Strassen指数。此外,在 ternary 系数中重新发现了93个先前仅存在于有理数或整数域的方案,并在整数系数中找到了68个原先需要分数运算的方案。所有工具及发现方案均已公开,以确保研究的可复现性。
多领域图预训练通过整合来自不同领域的知识来提升目标领域性能,这对构建图基础模型至关重要。尽管已取得初步成功,但现有方案往往难以回答一个根本性问题:知识是如何跨领域整合或迁移的?这一理论局限促使我们重新思考模型预训练与领域适应之间的一致性和可迁移性。本文提出一种全新的黎曼几何视角,其核心思想是将任意图数据集融合为统一的平滑黎曼流形,从而系统化理解知识整合与迁移过程。为实现这一目标,我们的关键贡献是理论构建了神经流形粘合技术——首先通过自适应正交标架刻画局部几何特征,再将局部片段“粘合”为连贯整体。基于该理论,我们提出GraphGlue框架,支持基于指数移动平均原型的批量化预训练,并提供基于几何一致性的可迁移性度量。大量实验表明该框架在多种图领域均取得卓越性能。此外,我们通过实证验证了GraphGlue的几何缩放定律:更大规模的数据集能通过生成更平滑的流形来提升模型可迁移性。代码已开源于https://github.com/RiemannGraph/GraphGlue。
射线追踪已成为精确无线电传播建模的标准方法,但其计算复杂度呈指数级增长,因为候选路径数量随环境物体数量的指数次方增长。这一瓶颈限制了其在大规模或实时场景中的应用,迫使传统工具依赖启发式方法来减少候选路径数量,但可能牺牲精度。为突破此局限,我们提出一种综合型机器学习辅助框架,通过生成流网络以智能采样替代穷举式路径搜索。将此类生成模型应用于该领域面临重大挑战,尤其是有效路径稀缺导致的奖励稀疏问题,在复杂环境中评估高阶相互作用时容易引发收敛失败和平凡解。为确保稳健学习与高效探索,本框架包含三大核心架构组件:首先采用经验回放缓冲区捕获并保留稀有有效路径;其次采用均匀探索策略以提升泛化能力,防止模型对简单几何结构过拟合;第三应用基于物理规则的动作掩码策略,在模型评估前滤除物理不可行路径。实验验证表明,所提模型在GPU上可实现最高10倍、CPU上最高1000倍的加速比,同时保持高覆盖精度,并能成功揭示复杂传播路径。完整源代码、测试案例及教程详见https://github.com/jeertmans/sampling-paths。