每日精选AI研究论文及翻译
多步检索增强生成(RAG)已成为提升大语言模型在需要全局理解和深度推理任务上性能的广泛策略。现有RAG系统常通过工作记忆模块整合检索信息,但这类记忆设计多作为被动存储器,仅用于累积孤立事实以压缩长输入或通过推导生成新子查询。这种静态特性忽略原始事实间关键的高阶关联——而此类关联组合往往能为后续步骤提供更强指引。因此,现有方法在表征能力及对多步推理和知识演化的影响方面存在局限,导致长上下文中的推理碎片化与全局语义理解能力薄弱。 我们提出HGMem,一种基于超图的记忆机制,将记忆概念从简单存储扩展为支持复杂推理和全局理解的动态表达结构。该方法将记忆表征为超图,其超边对应独立记忆单元,可实现记忆中高阶交互的渐进式构建。该机制围绕核心问题连接事实与思维,逐步演变为集成化的情境知识结构,为后续步骤的深度推理提供强命题支持。我们在多个专为全局语义理解设计的挑战性数据集上评估HGMem。大量实验与深度分析表明,该方法能持续优化多步RAG性能,并在多样任务中显著超越强基线系统。
大型语言模型(LLMs)对所有词元采用统一计算模式,然而语言实际呈现出高度非均匀的信息密度特性。这种词元均质化处理机制既在局部可预测片段上浪费算力,又对语义关键转折处的计算资源分配不足。我们提出动态大概念模型(DLCM)——一种分层语言建模框架,该框架通过潜在表征自动学习语义边界,并将计算重心从词元转移至压缩后的概念空间,从而提升推理效率。DLCM采用端到端方式发现可变长度概念,无需依赖预定义语言单元。分层压缩机制从根本上改变了模型的扩展规律:我们首次提出压缩感知的缩放定律,将词元级容量、概念级推理能力与压缩比进行解耦,实现在固定浮点运算量下的理性计算分配。为稳定训练这一异构架构,我们进一步开发解耦型μP参数化方案,支持跨宽度与压缩模式的零样本超参数迁移。在实用场景下(压缩比R=4,即每个概念平均对应四个词元),DLCM将约三分之一的推理算力重新分配给高容量推理主干网络,在保持推理浮点运算量不变的条件下,于12个零样本基准测试中实现平均+2.69%的性能提升。
尽管当前的多模态大语言模型(MLLMs)在多模态推理领域取得了显著进展,但其推理过程仍以文本为核心,导致在复杂的长期视觉中心任务中表现欠佳。本文提出了一种创新的生成式多模态推理范式,并推出基于扩散模型的推理框架DiffThinker。该框架在概念上将多模态推理重构为原生生成式图像到图像任务,从而在视觉中心任务中实现卓越的逻辑一致性与空间精确度。我们通过系统化对比DiffThinker与MLLMs,首次深入揭示了该范式的四大内在特性:高效性、可控性、原生并行性与协同性。在四大任务领域(序列规划、组合优化、约束满足和空间配置)上的大量实验表明,DiffThinker显著超越了包括GPT-5(+314.2%)、Gemini-3-Flash(+111.6%)在内的领先闭源模型,以及微调的Qwen3-VL-32B基线模型(+39.0%),这充分证明生成式多模态推理是视觉中心推理领域极具前景的研究方向。
扩散模型为语言生成提供了诱人的特性,如并行解码与迭代优化,但文本的离散性与高度结构化特性对直接应用扩散原理构成了挑战。本文从扩散过程与语言建模的双重视角重新审视扩散语言模型,归纳出区分扩散机制与语言特定需求的五项特性。我们首先将现有方法划分为嵌入空间的连续扩散和词元层面的离散扩散,进而证明每类方法仅能部分满足五项关键特性,反映出固有的结构权衡。通过对近期大型扩散语言模型的分析,我们揭示出两个核心问题:(i)均匀噪声干扰未能充分考虑信息在文本位置间的分布规律;(ii)词元边际训练无法捕捉并行解码过程中的多词元依赖关系。这些发现启示我们设计更贴合文本结构的扩散过程,推动未来研究构建更具连贯性的扩散语言模型。
本研究揭示了模型容量在不同时间步长中的差异化影响:在初始与终末阶段至关重要,而在中间阶段基本可忽略。基于此,我们提出FlowBlending——一种阶段感知的多模型采样策略,分别在容量敏感阶段和中间阶段采用大模型与小模型。我们进一步提出了划分阶段边界的简易准则,并通过速度散度分析作为识别容量敏感区域的有效代理方法。在LTX-Video(2B/13B)和WAN 2.1(1.3B/14B)数据集上的实验表明,FlowBlending在保持大模型视觉保真度、时序连贯性和语义对齐的前提下,推理速度最高提升1.65倍,FLOPs减少57.35%。该方案还可与现有采样加速技术兼容,实现最高2倍的额外加速。项目页面详见:https://jibin86.github.io/flowblending_project_page。
生成式视频建模已成为一种强大的工具,能够对开放世界操控中的合理物理交互进行零样本推理。然而,如何将这类人类引导的运动转化为机器人系统所需的底层动作仍具挑战。我们发现,给定初始图像和任务指令时,这些模型能出色地合成合理的物体运动。为此,我们提出Dream2Flow框架,通过三维物体流作为中间表征连接视频生成与机器人控制。该方法从生成视频中重建三维物体运动,并将操控问题转化为物体轨迹跟踪任务。通过将状态变化与实现变化的执行机构分离,Dream2Flow克服了本体差异,使预训练视频模型能零样本指导多类别物体(包括刚性体、铰接体、可变形体和颗粒体)的操控。通过轨迹优化或强化学习,该方法无需任务特定示教即可将重建的三维物体流转化为可执行的底层指令。仿真与真实实验表明,三维物体流是适配视频生成模型至开放世界机器人操控的通用可扩展接口。视频及可视化结果详见https://dream2flow.github.io/。
仿真优化(SO)常面临评估噪声、高计算成本及复杂多峰搜索空间的挑战。本文提出禁忌增强仿真优化(TESO)这一新型元启发式框架,将自适应搜索与基于记忆的策略相融合。TESO利用短期禁忌列表防止循环搜索并促进多样化,通过长期精英记忆库对优质解进行扰动以引导集中搜索。引入的渴望准则允许对特殊候选解突破禁忌限制。这种组合在随机环境中实现了探索与开发的动态平衡。我们以排队系统优化问题验证TESO的有效性与可靠性,结果表明其性能优于基准算法,并证实了记忆组件的贡献。源代码与数据详见:https://github.com/bulentsoykan/TESO。