每日精选AI研究论文及翻译
基于视频的世界模型主要沿着两大范式发展:视频生成与三维重建。然而,现有评估基准要么局限于生成模型的视觉保真度和文本-视频对齐能力,要么依赖静态三维重建指标,本质上忽略了时序动态特性。我们认为世界建模的未来在于四维生成——即对空间结构和时序演化的联合建模。该范式的核心能力在于交互响应:即准确反映交互行为如何驱动时空状态转换的能力。但现有基准尚未系统评估这一关键维度。为填补这一空白,我们提出Omni-WorldBench,这是一个专门用于评估四维场景下世界模型交互响应能力的综合基准。该基准包含两大核心组件:Omni-WorldSuite——涵盖多层级交互类型与场景类别的系统性提示词集;以及Omni-Metrics——基于智能体的评估框架,通过量化交互行为对最终结果和中间状态演化轨迹的因果影响,来衡量世界建模能力。我们对18个代表性世界模型进行了多范式广泛评估,分析揭示了当前模型在交互响应方面的关键局限,为未来研究提供了可操作的见解。Omni-WorldBench将公开发布以推动交互式四维世界建模的发展。
我们推出daVinci-MagiHuman——一款面向人本生成的开源音视频生成基础模型。该模型通过单流Transformer架构,仅依赖自注意力机制在统一标记序列中处理文本、视频和音频数据,实现同步音视频生成。这种单流设计避免了多流或交叉注意力架构的复杂性,同时能利用标准训练推理基础设施轻松优化。该模型在人本生成场景表现卓越,可生成富有表现力的面部表演、自然的语音表情协调、逼真的身体运动以及精准的音画同步效果,支持汉语(普通话与粤语)、英语、日语、韩语、德语、法语等多语言语音生成。为提升推理效率,我们结合模型蒸馏、潜空间超分辨率和Turbo VAE解码器技术,在单张H100 GPU上仅需2秒即可生成5秒时长的256p视频。自动评估显示,daVinci-MagiHuman在主流开源模型中取得最高视觉质量与文本对齐度,语音可懂度词错误率最低(14.60%)。在2000次人工对比评估中,其相对于Ovi 1.1和LTX 2.3的胜率分别达到80.0%和60.9%。我们已开源完整模型栈,包括基础模型、蒸馏模型、超分辨率模型及推理代码库。
视觉语言模型通常以原生高分辨率处理图像,这迫使模型在精度与计算效率之间做出权衡:高分辨率输入能捕捉细微细节但计算成本高昂,低分辨率输入虽提升效率却可能遗漏关键视觉信息(如小尺寸文本)。我们提出AwaRes框架,通过空间按需调用机制解决这一矛盾——系统在低分辨率全局视图上运行,并通过工具调用仅检索查询所需的高分辨率局部区域。我们采用自动化监督数据构建方法:通过比对低/高分辨率答案的评判机制标记是否需要局部裁剪,利用 grounding 预言模型定位正确答案的证据区域,并将其映射至离散裁剪集合以形成多轮工具使用轨迹。训练流程包含冷启动SFT和带复合奖励的多轮GRPO,其中奖励函数综合了语义答案准确性与显式裁剪成本惩罚。项目页面:https://nimrodshabtay.github.io/AwaRes
我们推出LongCat-Flash-Prover——一款拥有5600亿参数的旗舰级开源专家混合模型,通过智能体工具集成推理技术,在Lean4中推动原生形式化推理的发展。我们将原生形式化推理任务分解为三个独立的形式化能力:自动形式化、证明草图构建与定理证明。为强化这些能力,提出混合专家迭代框架以扩展高质量任务轨迹,包括基于非形式化问题生成形式化命题、直接从命题生成完整证明或引理式证明草图。在智能体强化学习阶段,我们提出分层重要性采样策略优化算法,旨在稳定专家混合模型在长周期任务上的训练。该算法采用梯度掩码策略,同时考虑策略滞后性以及序列与词元层面固有的训练-推理引擎差异。此外,还引入定理一致性与合法性检测机制以消除奖励破解问题。大量评估表明,LongCat-Flash-Prover在自动形式化与定理证明任务上为开源权重模型设立了新标杆:仅需每个问题72次推理预算即在MiniF2F测试集达到97.1%通过率;在更具挑战性的基准测试中,以每个问题不超过220次尝试的成绩解决70.8%的ProverBench与41.5%的PutnamBench问题,显著超越现有开源权重基线。
训练深度研究智能体需要能够交错进行搜索、证据整合与多步推理的长周期轨迹。然而,现有数据收集流程通常依赖专有网络API,导致大规模轨迹合成存在成本高、稳定性差且难以复现的问题。我们提出OpenResearcher——一个可复现的流程框架,通过三大显式浏览器原语(搜索、打开、查找)在包含1500万文档的语料库上完全离线执行搜索-浏览循环,实现了单次语料库引导与多轮轨迹合成的解耦。基于GPT-OSS-120B作为教师模型,我们合成了超过9.7万条轨迹,其中包含大量工具调用次数达100+的长周期任务。通过对30B-A3B骨干网络进行监督微调,该模型在BrowseComp-Plus上的准确率达到54.8%,较基础模型提升34.0个百分点,同时在BrowseComp、GAIA和xbench-DeepSearch基准上保持竞争力。由于环境完全离线且全流程可监测,该系统还支持可控分析——我们的研究揭示了深度研究管道设计的实用洞见,包括数据过滤策略、智能体配置选择,以及检索成功率与最终答案准确性的关联。我们已开源该流程框架、合成轨迹、模型检查点及离线搜索环境,详见https://github.com/TIGER-AI-Lab/OpenResearcher。
由于上下文窗口有限,长视频理解对多模态大语言模型(MLLMs)仍具挑战性,这需要识别与查询相关的稀疏视频片段。然而,现有方法主要仅基于查询定位线索,忽略了视频的内在结构及各片段间的差异相关性。为此,我们提出VideoDetective框架,通过整合查询-片段相关性与片段间关联性,实现长视频问答中的高效线索搜寻。具体而言,我们将视频分割为多个片段,并基于视觉相似性和时序邻近性构建视觉-时序关联图。随后通过假设-验证-优化循环计算已观测片段与查询的相关性分数,并将其传播至未观测片段,最终生成全局相关性分布以指导关键片段的定位,实现稀疏观测下的精准回答。实验表明,该方法在主流MLLMs和代表性基准测试中均取得显著提升,在VideoMME-long数据集上准确率最高提升7.5%。代码已开源:https://videodetective.github.io/
尽管大规模预训练图像表征模型(即视觉编码器)在各种视觉任务中取得了显著成功,但这些模型主要基于二维图像数据训练,因此往往难以捕捉现实世界中物体与背景之间的三维空间关系,这限制了许多下游应用中的效能。为解决这一问题,我们提出SpatialBoost——一个可扩展的框架,通过注入语言描述表达的三维空间知识来增强现有预训练视觉编码器的空间感知能力。其核心思想是将二维图像中的密集三维空间信息转化为语言表达,进而通过大语言模型(LLM)将此类空间知识注入视觉编码器。为此,我们采用多轮思维链(CoT)推理过程,逐步融合密集空间知识并构建层次化的空间理解。为验证有效性,我们将SpatialBoost适配至DINOv3等前沿视觉编码器,并在需要三维感知与通用视觉能力的大规模基准测试中评估其性能提升。例如在ADE20K数据集上,SpatialBoost将DINOv3的mIoU从55.9提升至59.7,以3.8%的性能增益超越预训练DINOv3,达到当前最优水平。
针对视频生成的群组相对策略优化(GRPO)方法(如FlowGRPO)的可靠性仍远逊于语言模型与图像生成领域的同类技术。这一差距源于视频生成具有复杂的解空间,且用于探索的常微分方程-随机微分方程(ODE-to-SDE)转换会引入过量噪声,导致生成质量下降、奖励估计可靠性降低,进而影响训练后对齐的稳定性。为解决该问题,我们将预训练模型视为定义了一个有效的视频数据流形,并将核心问题转化为约束探索过程始终处于该流形邻域内,从而保证生成质量与奖励估计的可靠性。本文提出SAGE-GRPO(基于稳定探索的对齐方法),在微观与宏观层面实施双重约束:微观层面推导出具有对数曲率修正的精确流形感知SDE,并引入梯度范数均衡器以稳定不同时间步的采样与更新;宏观层面采用周期性移动锚点的双信任区域机制,配合逐步约束策略,使信任区域能追踪更接近流形的检查点并限制长时序漂移。我们在HunyuanVideo1.5框架下以原始VideoAlign作为奖励模型进行评测,发现SAGE-GRPO在VQ、MQ、TA及视觉指标(CLIPScore、PickScore)上均持续优于现有方法,在奖励最大化与整体视频质量方面均展现出卓越性能。代码及视觉展示详见https://dungeonmassster.github.io/SAGE-GRPO-Page/。
当前语言模型训练普遍采用多任务监督微调(SFT)方法,并在所有子数据集上均匀分配计算预算。这种方法存在本质缺陷:异构的学习动态会导致快速学习的任务过早过拟合,而慢速学习的任务仍处于欠拟合状态。为此,我们提出mSFT——一种针对多任务数据混合的迭代式过拟合感知搜索算法。mSFT通过在动态混合数据上训练模型,识别并排除最早发生过拟合的子数据集,并回退至该特定任务的最优检查点后继续训练。大量评估表明,mSFT在10个基准测试和6个基础模型中均稳定优于4种基线方法。进一步分析证实,mSFT在不同数据集规模、任务粒度下均保持稳健增益,且对其唯一新增超参数(计算预算)不敏感。值得注意的是,在低计算预算下,mSFT能在降低训练浮点运算量的同时提升性能。最终,mSFT为多任务SFT建立了一种实用的过拟合感知算法,可最大化模型在异构数据混合场景下的潜力。
前馈式3D高斯泼溅方法能够实现单次重建与实时渲染,但其通常采用固定的像素-高斯或体素-高斯映射流程,导致各视角间存在冗余的高斯分布。此外,现有方法缺乏在保持重建精度的同时控制高斯点总数量的有效机制。为解决这些局限性,我们提出F4Splat模型,通过前馈式预测性致密化策略,引入基于致密化得分的自适应分配机制,能够根据空间复杂度和多视角重叠情况动态调整高斯点分布。该模型通过预测区域致密化得分来估算所需高斯密度,并允许在不重新训练的情况下显式控制最终高斯点预算。这种空间自适应分配机制减少了简单区域的冗余分布,并最小化重叠视角间的重复高斯点,从而生成紧凑且高质量的3D表征。大量实验表明,相较于现有未校准的前馈方法,本模型在使用更少高斯点的同时,实现了更优异的新视角合成性能。
尽管生成式隐空间的最新进展已推动单张图像生成领域取得显著进步,但适用于新颖视角合成(NVS)的最优隐空间仍属空白。尤其值得注意的是,NVS要求跨视角的几何一致性生成,而现有方法通常基于视角无关的VAE隐空间。本文提出几何隐扩散(GLD)框架,通过重构几何基础模型中具有几何一致性的特征空间,将其作为多视角扩散的隐空间。我们证明这些特征不仅支持高保真RGB重建,还编码了强视角间几何对应关系,为NVS提供了适配度极高的隐空间。实验表明,GLD在二维图像质量与三维一致性指标上均优于VAE和RAE,且相较VAE隐空间加速训练超4.4倍。值得注意的是,尽管GLD的扩散模型完全从头训练而未借助大规模文生图预训练,其性能仍可与采用此类生成式预训练的先进方法相媲美。
开放词汇3D目标检测旨在定位和识别超出固定训练分类体系的对象。在多视角RGB场景中,现有方法通常将基于几何的实例构建与语义标注解耦,先生成类别无关的片段,再后验分配开放词汇类别。虽然灵活,但这种解耦使实例构建主要受几何一致性支配,合并过程缺乏语义约束。当几何证据存在视角依赖性和不完整性时,纯几何合并可能导致不可逆的关联错误,包括不同对象的过度合并或单个实例的碎片化。我们提出Group3D——一种将语义约束直接整合到实例构建过程中的多视角开放词汇3D检测框架。该方法通过多模态大语言模型维护场景自适应词汇表,并将其组织为编码合理跨视角类别等价关系的语义兼容组。这些组作为合并时的约束条件:仅当3D片段同时满足语义兼容性和几何一致性时才进行关联。这种语义门控合并机制在吸收多视角类别变异性的同时,有效缓解了几何驱动的过度合并问题。Group3D支持位姿已知和自由位姿两种设置,仅依赖RGB观测数据。在ScanNet和ARKitScenes上的实验表明,该方法在多视角开放词汇3D检测中达到最先进性能,并在零样本场景中展现出强泛化能力。项目页面详见https://ubin108.github.io/Group3D/。
提升多模态大语言模型(MLLMs)的具身推理能力,对于在其基础上构建视觉-语言-动作模型(VLAs)至关重要,这能直接将多模态理解转化为底层动作。近期研究尝试通过视觉问答类监督增强MLLMs的具身推理能力,但这类方法被报道会导致VLA性能不稳定,往往仅产生微弱增益甚至出现性能下降。本文提出一种更系统化的MLLM训练框架RoboAlign,可稳定提升VLA性能。其核心思想是通过零样本自然语言推理生成动作令牌,并利用强化学习(RL)优化推理过程以提高动作准确性。RoboAlign由此弥合了MLLMs中语言与底层动作的模态鸿沟,促进知识从MLLM向VLA迁移。为验证有效性,我们在MLLM骨干网络上添加基于扩散模型的动作头训练VLA,并在主流机器人基准测试中评估。值得注意的是,仅使用不足1%的数据进行监督微调(SFT)后实施基于RL的校准,RoboAlign在LIBERO、CALVIN和真实环境中的性能较SFT基线分别提升17.5%、18.9%和106.6%。
可验证奖励强化学习(RLVR)显著提升了大型语言模型的推理能力。现有分析虽指出RLVR引发的模型更新具有稀疏性,但主要关注更新幅度,而忽视了更新方向的重要性。本研究提出更新方向是理解RLVR效果的关键视角,可通过基础模型与最终RLVR模型之间的符号化词元级对数概率差Δlog p来捕捉。通过统计分析和词元替换干预实验,我们证明相较于基于幅度的指标(如散度或熵),Δlog p能更有效地识别稀疏却对推理至关重要的更新。基于此发现,我们提出两种实际应用:(1)测试时外推法,沿习得的Δlog p方向放大策略以提升推理准确率,无需额外训练;(2)训练时重加权法,将学习重点集中于低概率(对应较高Δlog p)词元,从而提升不同模型与基准测试中的推理性能。本研究确立了变化方向作为分析和改进RLVR的核心原则。
大型语言模型(LLMs)在知识密集型任务中常出现幻觉问题。基于图谱的检索增强生成(RAG)已成为一种有效解决方案,但现有方法在处理黑盒知识图谱(即图谱结构和模式未知)时存在根本性的召回率与精确度局限。我们识别出导致召回损失(语义实例不确定性和结构路径不确定性)与精确度损失(证据对比不确定性)的三重核心挑战。针对这些挑战,我们将检索任务形式化为最优信息子图检索(OISR)问题——一种群斯坦纳树变体,并证明其具有NP难与APX难特性。提出BubbleRAG训练无关框架,通过语义锚点分组、启发式气泡扩展发现候选证据图(CEG)、复合排序及推理感知扩展,系统化优化召回与精确度指标。在多跳问答基准测试中,BubbleRAG在F1值与准确率上均超越现有强基线方法,达到最先进水平,且保持即插即用特性。
诸如CLIP这类连接视觉与语言的模型是多模态人工智能的核心组件,但其大规模非精选训练数据会引入严重的社会性偏见与伪相关性。现有的事后去偏方法通常直接在稠密的CLIP嵌入空间中操作,而该空间中偏见信息与任务相关信息高度耦合,导致在保持语义保真度的同时消除偏见的能力受限。本研究提出稀疏嵌入调制(SEM)——一种在稀疏自编码器(SAE)潜空间运行的零样本事后去偏框架。通过将CLIP文本嵌入解耦为分离特征,SEM可识别并调控偏见相关神经元,同时保留查询相关神经元,从而实现更精确的非线性干预。在四个基准数据集和两种CLIP主干网络上的实验表明,SEM在检索和零样本分类任务中显著提升了公平性。研究结果证明,稀疏潜表征为视觉语言模型的事后去偏提供了有效基础。
针对长周期智能体任务的后训练存在计算效率与泛化能力之间的权衡。监督微调虽计算高效,但常出现域外性能衰退;而端到端强化学习虽能保持域外能力,却因多轮策略 rollout 带来高昂计算成本。我们提出PivotRL创新框架,该框架基于现有监督微调轨迹运行,兼具监督微调的计算效率与端到端强化学习的域外准确性。PivotRL依赖两大核心机制:首先执行局部策略rollout并筛选关键转折点——即当采样行为在结果中呈现高方差的信息化中间节点;其次采用功能等价行为的奖励机制,而非要求与监督微调演示数据严格字符串匹配。理论证明这些机制能激励具有高自然梯度范数的强学习信号,同时最大限度保持与训练任务无关行为的策略概率顺序。在相同数据上的实验表明,PivotRL在四个智能体领域平均实现+4.17%的域内准确率提升,在非智能体任务中域外准确率提升达+10.04%。值得注意的是,在智能体编程任务中,PivotRL仅用端到端强化学习1/4的rollout轮数即达到与之相当的准确率。该框架已被英伟达Nemotron-3-Super-120B-A12B模型采用,成为生产级智能体后训练的核心技术。
现有提示优化技术依赖局部信号更新行为,常忽视跨任务的全局重复模式,导致泛化能力不足;其进一步依赖完整提示重写或非结构化合并,造成知识损失。这些局限在研究型编程工作流中被放大——该场景涉及异构代码库、未明确指定的环境和弱反馈机制,且以复现公共代码库结果作为既定评估标准。我们提出反射式演进研究工程师(REVERE)框架,该框架能够持续从全局训练语境中学习,识别跨代码库执行轨迹中的重复故障模式,将其提炼为可复用启发式规则,并对三个可配置字段实施定向编辑:系统提示、任务提示模板和累积速查表。通过这种反射式优化机制,REVERE在研究编码任务上的表现较先前最先进的专家定制指令分别提升:SUPER基准4.50%、ResearchCodeBench基准3.51%、ScienceAgentBench基准4.89%。结果表明,具备持续学习与全局记忆整合机制的智能体能够实现能力的实质性演进。
大型语言模型(LLMs)通过延长测试时推理已实现显著的可靠性与先进能力。然而,由于高质量长链推理数据与优化训练流程的严重匮乏,将此类能力扩展至多模态大语言模型(MLLMs)仍面临重大挑战。为弥补这一鸿沟,我们提出统一的多智能体视觉推理框架,从以图像为核心的基础模型Insight-V系统性地演进为通用时空架构Insight-V++。我们首先设计了具备多粒度评估能力的可扩展数据生成流程,无需人工干预即可自主合成跨图像与视频领域的结构化复杂推理轨迹。鉴于直接使用此类复杂数据监督MLLMs会导致次优结果,我们构建了双智能体架构:推理智能体负责执行扩展分析链,摘要智能体则对最终结果进行批判性评估与提炼。虽然初始框架采用直接偏好优化(DPO),但其离策略特性本质限制了强化学习潜力。为突破这一局限(尤其针对长时序视频理解),Insight-V++引入ST-GRPO与J-GRPO两种新型算法,分别增强时空推理能力与评估鲁棒性。关键创新在于通过摘要智能体的可靠反馈,引导迭代式推理路径生成过程,使整个多智能体系统在持续自我优化的循环中完成再训练。基于LLaVA-NeXT、Qwen2.5-VL等基础模型的大规模实验表明,该框架在挑战性图像视频推理基准上取得显著性能提升,同时保持传统感知任务的强健能力。
权重分解的低秩自适应方法(DoRA)通过将权重幅度与方向解耦扩展了LoRA,但其前向传播需要计算W + sBA的行范数,而我们所调研的主流框架均通过实例化稠密的[d_out, d_in]乘积BA来实现该计算。当d_in=8192且秩r=384时,单个模块的范数计算在bf16精度下需要约512 MB的瞬态工作内存,这使得高秩DoRA在涉及数百个适配模块和检查点机制时成本高昂,且在常见单GPU环境中往往不可行。 我们提出两项系统优化贡献:分解式范数计算将平方范数拆解为可经由O(d_out r + r^2)中间量计算的基础项、交叉项和格拉姆项,从而消除稠密乘积计算;融合式Triton内核将四内核DoRA组合压缩为单次运算,减少约4倍内存流量,并采用数值稳定形式避免在幅度缩放集中于单位尺度的实际场景中出现灾难性相消。 在bf16精度下对六个8-32B视觉语言模型(VLM)进行r=384的测试(覆盖三款NVIDIA GPU:RTX 6000 PRO/H200/B200),融合实现相比Hugging Face PEFT的DoRA实现推理速度提升1.5-2.0倍,梯度计算速度(不含优化器步)提升1.5-1.9倍,峰值显存降低最高7 GB。跨四代架构的六款GPU微基准测试(L40S/A100/RTX 6000 PRO/H200/B200/B300)证实组合内核加速达1.5-2.7倍。所有模型/GPU配对的最终逻辑输出余弦相似度超过0.9999,多随机种子训练曲线在2000步内的平均单步损失差异小于7.1×10^-4。
生成模型与视觉编码器长期以来沿着不同轨迹发展,分别针对不同目标进行优化并基于不同的数学原理。然而它们共享一个基本特性:潜在空间的高斯性。生成模型将高斯噪声映射为图像,而编码器将图像映射为语义嵌入向量——其坐标在经验上呈现高斯分布特性。我们假设二者实为同一潜在源的不同视图,即通用正态嵌入(UNE):这是一个近似高斯分布的潜在空间,编码器嵌入和DDIM逆扩散噪声均可视为其带噪声的线性投影。为验证该假设,我们构建了NoiseZoo数据集,包含每张图像对应的DDIM逆扩散噪声与匹配的编码器表征(CLIP、DINO)。在CelebA数据集上的实验表明,两个空间中的线性探针均能实现强相关且对齐的属性预测,证明生成噪声沿线性方向编码了有意义的语义信息。这些方向进一步实现了无需架构修改的精准可控编辑(如微笑、性别、年龄),通过简单正交化即可缓解虚假纠缠。综合来看,我们的研究结果为UNE假设提供了实证支持,揭示了连接编码与生成的共享高斯型潜在几何结构。代码与数据详见https://rbetser.github.io/UNE/
我们提出广义离散扩散快照法(GDDS),这是一个支持大规模离散状态空间任意噪声化过程的统一离散扩散建模框架。该框架不仅涵盖现有所有离散扩散方法,还在噪声动态选择上具有显著更高的灵活性。前向噪声化过程基于均匀化理论,可实现快速任意污染。对于逆向过程,我们基于快照潜变量(而非完整噪声路径)推导出简洁的证据下界(ELBO),使标准生成建模架构能够以清晰的概率解释进行高效训练。在大词汇量离散生成任务上的实验表明,所提框架在训练效率和生成质量上均优于现有离散扩散方法,并首次在此规模上超越自回归模型。相关代码及技术博客已发布于项目页面:https://oussamazekri.fr/gdds。
代码复用与调用仍面临高成本与低可靠性难题,主要原因在于实用工具大多嵌入异构代码库且缺乏标准化可执行接口。尽管大语言模型(LLM)和基于模型上下文协议(MCP)的工具调用框架支持自然语言任务执行,但现有方法严重依赖人工工具筛选与标准化,这从根本上制约了可扩展性。本文提出ToolRosetta统一框架,能自动将开源代码库和API转换为符合MCP标准的工具,供LLM可靠调用。面对用户任务时,ToolRosetta可自主规划工具链、定位相关代码库,并将其转化为可执行的MCP服务,实现端到端任务完成且无需过多人工干预。该框架还集成安全检测层以降低执行任意代码的固有风险。跨学科大规模实验表明,ToolRosetta能自动标准化大量开源工具,显著减少代码复现与部署所需人力。值得注意的是,通过无缝集成专业开源工具,基于ToolRosetta的智能体相较于商业LLM和现有代理系统,持续提升任务完成性能。
提示路由技术能够动态地从候选模型池中为每个查询选择最合适的大语言模型,在优化性能的同时有效控制成本。随着模型池规模扩大至包含数十个性能差距微弱的前沿模型,现有方法面临重大挑战:手动定义的任务分类法难以捕捉细粒度能力差异,而单一路由器无法有效区分多样化任务间的细微差别。我们提出一种两阶段路由架构,通过自动化细粒度任务发现和任务感知质量评估来解决这些局限。第一阶段采用基于图结构的聚类方法发现潜在任务类型,并训练分类器将提示分配至已发现任务。第二阶段使用混合专家架构,配备针对特定任务的预测头以实现专业化质量评估。在推理时,我们综合两个阶段的预测结果,以平衡任务级稳定性与提示级适应性。在包含11个前沿模型的10个基准测试中,我们的方法始终优于现有基线,其表现超越最强单体模型的同时,成本不足后者的一半。
人们常将“AI奇点”误读为单一神性心智的降临。但进化历程揭示了另一条路径:智能本质上是多元、社会性与关系性的。近期智能体研究的突破表明,前沿推理模型(如DeepSeek-R1)的进步并非源于“更长时间的思考”,而是通过模拟内在的“思维社群”——那些自发进行辩论、验证与调和的认知辩论会来解决复杂任务。我们正迈入人机融合的“半人马时代”:集体能动性超越个体控制的混合行动体正在涌现。要实现这种智能的规模化拓展,需从二元对齐(RLHF)转向制度性对齐——通过借鉴组织与市场机制设计数字协议,构建具有制衡功能的社会基础设施。下一次智能爆发不会催生单一的硅基大脑,而将形成如城市般专业分工且不断蔓延的复合型社会。世间从无孤岛般存在的智能。
人工智能代理在独立软件工程任务(如解决GitHub问题)上的能力日益增强。然而,涉及多个相互依赖子任务的长期任务仍存在准确性及时效性挑战。异步多智能体协作作为解决这类长期任务的天然方案,允许多个代理同时处理任务的不同部分。但多代理系统的有效应用存在显著困难:并发编辑易产生冲突、依赖关系难以同步、部分进展整合具有挑战性。相比之下,人类开发者长期依赖成熟的协作基础设施应对大型软件项目中的这些难题。受此类协作原语启发,我们提出集中式异步隔离委托(CAID)——一种基于三大软件工程核心原语的结构化多代理协调范式:集中式任务委托、异步执行和隔离工作区。CAID通过中央管理器构建依赖感知的任务计划,在隔离工作区中并行执行子任务,并通过基于可执行测试验证的结构化集成实现进展整合。实证评估表明,CAID在论文复现任务(PaperBench)上较单代理基线绝对准确率提升26.7%,在Python库开发任务(Commit0)上提升14.3%。系统分析表明,分支合并是多代理协作的核心协调机制,而git worktree、git commit和git merge等软件工程原语能使其以可靠可执行的方式实现。
大型视觉语言模型(LVLM)在语义理解方面表现出色,但在细粒度空间定位方面存在不足,因为模型需隐式推断复杂几何关系而从未生成空间解释。我们提出Perceptio——一种具备2D与3D空间推理能力的感知增强型LVLM,通过直接在自回归序列中生成显式语义分割标记与深度标记实现该能力。具体而言,我们(i)从强单目深度估计教师模型蒸馏出VQ-VAE深度码本,将稠密深度信息编码为紧凑序列;(ii)将基于SAM2的语义分割标记和VQ-VAE深度标记集成至大语言模型中,使模型先输出空间标记再回答问题。为稳定深度标记生成,我们引入新型复合深度标记目标函数(标记符损失、标记损失和计数损失)及可微分重建的软融合技术。通过在多数据集上采用多任务协同训练策略,模型可学习感知标记以处理多种下游任务。基于InternVL架构的Perceptio在多个基准测试中实现最先进性能:在RefCOCO/+/g数据集上指代表达式分割cIoU提升+0.8/+1.4/+1.1,HardBLINK空间理解准确率提高10.3%,MMBench准确率提升1.0%,证明显式空间思维链能实质性增强LVLM的空间定位能力。
动物发声为野生动物评估提供了关键线索,尤其在森林等复杂环境中,有助于物种识别与生态监测。深度学习的最新进展使得基于动物叫声的自动物种分类成为可能。然而,对训练阶段未见过物种的分类仍是挑战。为突破这一局限,我们提出AnimalCLAP——一个包含分类学信息的语言-音频框架,该框架由融合层级化生物信息的新型数据集和模型构成。具体而言,我们的动物发声数据集包含4,225小时录音,涵盖6,823个物种,并标注了22种生态特征。AnimalCLAP模型基于该数据集训练,通过分类学结构对齐音频与文本表征,从而提升对未知物种的识别能力。实验表明,我们提出的模型能直接从动物叫声中推断物种的生态与生物学属性,其性能显著优于CLAP模型。相关数据集、代码和模型将在https://dahlian00.github.io/AnimalCLAP_Page/ 公开。
扩散变换器(DiTs)虽能驱动高保真视频世界模型,但由于序列化去噪和高成本时空注意力机制,其计算开销依然巨大。基于免训练的特征缓存技术通过跨去噪步骤复用中间激活值来加速推理,然而现有方法主要依赖零阶保持假设——即当全局特征漂移较小时将缓存特征视为静态快照复用。这常导致动态场景中出现重影伪影、模糊和运动不一致问题。我们提出WorldCache,一种感知约束的动态缓存框架,从"何时复用"和"如何复用"两个维度进行优化。该框架引入运动自适应阈值、显著性加权的漂移估计、基于混合与形变的最优近似策略,以及跨扩散步骤的相位感知阈值调度。我们的协同方法无需重新训练即可实现自适应、运动一致的特征复用。在PAI-Bench上对Cosmos-Predict2.5-2B的评测表明,WorldCache在保持基线模型99.4%生成质量的同时实现2.3倍推理加速,显著优于现有免训练缓存方法。代码已发布于https://umair1221.github.io/World-Cache/{World-Cache}。
离线安全强化学习(RL)旨在从静态数据集中学习严格安全约束下的奖励最大化策略。现有方法通常依赖软期望成本目标或迭代式生成推理,这对安全关键型实时控制而言存在不足。我们提出安全流Q学习(SafeFQL),通过将汉密尔顿-雅可比可达性启发的安全价值函数与高效单步流策略相结合,将FQL扩展至安全离线RL领域。SafeFQL通过自洽性贝尔曼递归学习安全价值函数,通过行为克隆训练流策略,并将其蒸馏为单步执行器,从而在部署时无需拒绝采样即可实现奖励最大化的安全动作选择。针对学习安全边界存在的有限数据近似误差,我们引入共形预测校准步骤,动态调整安全阈值并提供有限样本的概率安全保证。实验表明,与扩散式安全生成基线方法相比,SafeFQL以适度增加的离线训练成本换取了显著降低的推理延迟,这对安全关键型实时部署尤为有利。在船舶导航和Safety Gymnasium MuJoCo任务中,SafeFQL在保持或超越现有离线安全RL性能的同时,显著减少了约束违反情况。
低秩自适应(LoRA)是目前基于预训练扩散模型生成个性化图像的事实微调策略。选择合适的秩至关重要,因为它需要在性能与内存消耗之间取得平衡,但当前业界通常仅根据社区共识确定秩值,而忽略了个性化主题的复杂性。其根源显而易见:为每个LoRA组件选择最佳秩的计算成本呈组合级增长,因此我们往往采用固定所有组件秩值的实用捷径。本文首次尝试突破这一困境。受神经网络自适应宽度学习的变分方法启发,我们允许各层秩值在针对特定主题微调时自由适配。通过建立秩位置的重要性排序机制,我们有效促使系统仅在严格必要的情况下生成更高秩值。定性与定量实验表明,我们的方法LoRA^2在29个测试主题上实现了DINO、CLIP-I和CLIP-T指标的竞争性平衡,同时相比高秩版本显著降低了内存需求和秩值。代码地址:https://github.com/donaldssh/NotAllLayersAreCreatedEqual。
强化学习(RL)对于推动大语言模型(LLMs)进化为具备长程规划能力的自主智能体至关重要,然而在复杂多轮环境中扩展RL技术的实用方案仍属空白。本文通过TravelPlanner(一个需要工具协调以满足多维度约束的挑战性测试平台)开展系统性实证研究,将智能体RL设计空间分解为五个维度:奖励塑造、模型缩放、数据构成、算法选择和环境稳定性。通过受控实验我们得出七项关键发现,例如:(1)奖励机制与算法选择具有规模依赖性——较小模型受益于分阶段奖励和增强探索,而较大模型通过简单密集奖励即可高效收敛;(2)约1K个难度均衡的训练样本构成领域内外性能的最佳平衡点;(3)环境稳定性对防止策略退化具有关键作用。基于提炼的实施方案,我们经RL训练的模型在TravelPlanner上实现了最先进性能,显著超越了主流LLMs。
扩散语言模型(DLM)相较于自回归模型具有显著优势,例如可实现全注意力并行解码和灵活生成。然而这类模型存在明显的训练-推理失配问题:DLM采用静态单步掩码预测目标进行训练,实际部署时却需通过多步渐进去噪路径生成。我们提出MemDLM(记忆增强型DLM),通过双层级优化将模拟去噪过程嵌入训练阶段以缩小这一差距。内层循环通过更新快速权重集合形成参数化记忆体,捕获每个样本的局部轨迹经验;外层循环则基于该记忆体更新基础模型。通过将记忆压力从词元表征转移至参数系统,MemDLM实现了更快的收敛速度与更低的训练损失。此外,在推理阶段重新启用内层循环可作为自适应步骤,显著提升长文本理解能力。我们发现,在推理时激活的参数化记忆体会形成一种新兴的权重内检索机制,帮助MemDLM在具有挑战性的"大海捞针"检索任务中进一步缓解词元级注意力瓶颈。代码地址:https://github.com/JarvisPei/MemDLM。
近期文本转语音技术的突破使得生成高保真合成语音已近乎与真人嗓音无法区分。尽管最新研究表明基于自监督学习的语音编码器在深度伪造检测方面具有效能,但这些模型难以对未见过的新说话人实现泛化。我们的定量分析表明,这些编码器表征显著受到说话人信息的影响,导致检测器过度依赖说话人特定关联而非伪造痕迹线索。我们将此现象称为"说话人纠缠"。为削弱这种依赖性,我们提出SNAP框架——一种说话人信息消除技术。通过估计说话人子空间并应用正交投影来抑制说话人相关成分,从而在残差特征中分离出合成痕迹。通过降低说话人纠缠度,SNAP引导检测器聚焦于伪造痕迹相关模式,最终实现了最先进的检测性能。
我们研究非周期层级结构是否能在无损压缩方面提供优于周期结构的优势。研究表明,斐波那契准晶镶嵌能避免周期层级结构存在的有限深度坍塌问题:可用的n元语法查找位置在每一层级均保持非零,而周期镶嵌在周期为p时仅维持O(log p)层级后即发生坍塌。这形成了非周期层级优势:字典复用可在所有尺度实现,而非在有限深度后消失。我们的分析得出四个主要结论:第一,黄金补偿特性表明位置数量的指数衰减恰好被短语长度的指数增长所平衡,使得潜在覆盖范围保持尺度不变性,其渐近值为Wφ/5;第二,基于斯特姆复杂度定律p(n)=n+1,我们证明斐波那契/斯特姆层级在二元非周期镶嵌中实现了最大码本覆盖效率;第三,在长程依赖条件下,该层级结构比同类周期层级具有更低的编码熵;第四,冗余度随深度超指数衰减,而周期系统会在发生坍塌的深度锁定。我们通过Quasicryth压缩器验证这些结论——该无损文本压缩器基于十层斐波那契层级构建,短语长度为{2,3,5,8,13,21,34,55,89,144}。在控制变量实验中,相较于周期为5的基准系统,非周期优势从3MB时的36,243字节增长到1GB时的11,089,469字节,这源于深层级结构的激活。在enwik9数据集上,Quasicryth实现225,918,349字节(22.59%),其中斐波那契镶嵌相比无镶嵌结构节省20,735,733字节。
本研究推出AdditiveLLM2模型——一个基于Gemma 3指令调优变体构建的多模态领域自适应大语言模型,其训练使用了约5000万token的小规模数据集。该数据集(AdditiveLLM2-OA)由开放获取的增材制造期刊论文构成,其数据被提取用于领域自适应预训练和视觉指令调优流程。我们采用包含增材制造领域专项任务的Additive-Manufacturing-Benchmark基准对开发模型的各个阶段进行评估,该基准整合了已公开资源的编译任务。AdditiveLLM2在语言和视觉任务中均表现出色,在通用增材制造知识测试中准确率超过90%。这种领域自适应预训练与指令调优策略为大型语言模型实现增材制造等专业领域的适配提供了一条可行的技术路径。
行为克隆是机器学习中的基础范式,通过专家示范实现策略学习,广泛应用于机器人学、自动驾驶和生成模型领域。自回归模型(如Transformer)已被证明具有显著效力,从大语言模型到视觉-语言-动作系统均可见其应用。然而,将自回归模型应用于连续控制需通过量化对动作进行离散化处理,这种做法虽被广泛采用,但其理论机制尚未得到充分理解。本文为这一实践奠定了理论基础。我们分析了量化误差如何沿时间轴传播并与统计样本复杂度相互作用,证明了在动态系统稳定且策略满足概率平滑条件的前提下,采用量化动作和对数损失的行为克隆能达到最优样本复杂度,与现有下界匹配,且量化误差仅引发多项式级别的时间依赖。我们进一步揭示了不同量化方案满足或违反这些条件的情形,并提出一种基于模型的增强方法,可在无需策略平滑性的情况下可证明地改善误差边界。最后,我们建立了能同时捕捉量化误差与统计复杂度影响的基本极限。
视听导航技术使具身智能体能够利用听觉与视觉线索向声源目标移动。然而现有方法大多依赖预计算的房间脉冲响应进行双耳音频渲染,将智能体限制在离散网格位置,导致空间不连续的观测结果。为构建更真实的场景,我们提出连续环境下的语义视听导航框架(SAVN-CE),使智能体可在三维空间自由移动,感知时空连贯的视听流。在此设定下,目标声源可能间歇性静默或完全停止发声,导致智能体丢失目标信息。为解决这一挑战,我们提出基于多模态Transformer的MAGNet模型,该模型联合编码空间与语义目标表征,并通过整合历史上下文与自运动线索实现记忆增强的目标推理。综合实验表明,MAGNet显著优于现有最优方法,成功率绝对提升幅度达12.1%。实验结果同时验证了模型对短时声音和长距离导航场景的强鲁棒性。代码已开源:https://github.com/yichenzeng24/SAVN-CE。
深度神经网络在计算机视觉领域取得显著成就,但其对抗攻击的脆弱性依然突出。其中伪装攻击通过改变物体视觉外观来欺骗检测器,同时保持人类难以察觉的特性。本文提出新框架,将车辆伪装攻击建模为条件图像编辑问题:我们探索图像级与场景级伪装生成策略,通过微调ControlNet直接在真实图像上合成伪装车辆。设计统一目标函数,同步保障车辆结构保真度、风格一致性与攻击有效性。在COCO和LINZ数据集上的大量实验表明,本方法攻击效能显著增强(导致AP50下降超38%),同时较现有方法更好保持车辆结构并提升人类视觉隐蔽性。此外,该框架能有效泛化至未见过的黑盒检测器,并展现出良好的物理世界迁移能力。项目页面详见https://humansensinglab.github.io/CtrlCamo
世界模型通过学习预测环境未来状态,实现规划与心理模拟。当前方法普遍采用基于Transformer的预测器在潜在空间中进行运算,但这带来了双重代价:O(N²)的计算复杂度与显式空间归纳偏置的缺失。本文提出一个基础性质疑:自注意力机制是否为预测性世界建模的必要条件?是否存在替代性计算基质能实现相当或更优的效果?我们提出FluidWorld概念验证模型,其预测动力学由反应-扩散型偏微分方程控制。该模型摒弃独立的神经网络预测器,直接通过PDE积分生成未来状态预测。在无条件UCF-101视频预测任务中(64x64分辨率,约80万参数,采用完全相同的编码器、解码器、损失函数及数据),我们进行了严格参数匹配的三向消融实验:FluidWorld与Transformer基线(自注意力)和ConvLSTM基线(卷积递归)对比。虽然三者均达到相当的单步预测损失,但FluidWorld实现了2倍更低的重构误差,其表征空间结构保持度提升10-15%,有效维度增加18-25%,关键优势在于能保持连贯的多步推演,而两个基线模型均快速退化。所有实验均在单台消费级PC(Intel Core i5, NVIDIA RTX 4070 Ti)上完成,未使用大规模算力。这些结果表明:基于PDE的动力学机制天然具备O(N)空间复杂度、自适应计算能力及通过扩散实现的全局空间一致性,是世界建模中可替代注意力与卷积递归的参效兼顾方案。
基于知识的对话系统旨在通过引入外部知识源生成信息丰富、上下文相关的回复。然而现有方法大多仅针对英语,缺乏验证事实主张的显式引用机制,且模型决策透明度有限。我们提出XKD-Dial——一个面向双语(英语-印地语)可解释知识对话生成的渐进式四阶段训练框架,包含:(1)多语言适应;(2)带引用的英语对话SFT;(3)双语对话SFT;(4)基于引用感知奖励的GRPO对齐。我们在每个阶段对六种编码器-解码器(250M-3B)和纯解码器(1B-7B)架构模型进行评估。核心贡献包括:(i)系统化应用三种事后可解释性分析(交叉注意力对齐、积分梯度归因、基于遮挡的因果定位),揭示引用行为在训练轨迹中的学习过程而非仅关注学习结果;(ii)从第二阶段起,带引用的SFT将编码器-解码器模型的幻觉率降至0.0%;(iii)渐进式框架在提升印地语能力的同时避免灾难性遗忘;(iv)SFT后较小模型在英语任务上可媲美大模型;(v)对于结构化引用任务,GRPO相对精心设计的SFT仅产生边际改进。我们采用六项自动指标(BLEU、ROUGE、BERTScore、FactScore、Citation-F1和幻觉率)进行全面评估。