每日精選AI研究論文及翻譯
多步检索增强生成(RAG)已成为增强大语言模型在需要全局理解和深度推理任务上表现的广泛策略。现有RAG系统多采用工作记忆模块来整合检索信息,但传统记忆设计主要作为被动存储器,通过累积孤立事实来实现长输入压缩和演绎生成新子查询。这种静态特性忽略了原始事实间关键的高阶关联,而此类关联组合往往能为后续步骤提供更强指引。因此,现有方法在表征能力和对多步推理及知识演进的影响方面存在局限,导致长上下文中的推理碎片化和全局语义构建能力薄弱。我们提出HGMem——一种基于超图的记忆机制,将记忆概念从简单存储扩展为支持复杂推理和全局理解的动态表达结构。该机制将记忆表示为超图,其超边对应不同记忆单元,可实现记忆内高阶交互的渐进式形成。这种设计围绕核心问题连接事实与思维,逐步演化为集成化、情境化的知识结构,为后续步骤的深度推理提供强命题支持。我们在多个专为全局语义构建设计的挑战性数据集上评估HGMem。大量实验与深度分析表明,该方法能持续优化多步RAG性能,并在多样化任务中显著超越强基线系统。
大型语言模型(LLMs)对全部词元采用统一计算模式,然而语言本身却呈现出高度非均匀的信息密度特性。这种词元均质化处理机制既在局部可预测片段上浪费了计算容量,又对语义关键跃迁区域分配不足。我们提出动态大概念模型(DLCM),该分层语言建模框架能够从潜在表征中学习语义边界,并将计算资源从词元空间转移到压缩后的概念空间——后者具备更高效的推理能力。DLCM通过端到端方式自主发现可变长度概念,无需依赖预定义语言单元。分层压缩机制从根本上改变了模型的扩展规律:我们首次提出感知压缩的扩展定律,将词元级容量、概念级推理能力与压缩比进行解耦,从而在固定浮点运算次数下实现理论驱动的计算资源分配。为稳定训练这种异构架构,我们进一步开发解耦型μP参数化方法,支持在不同宽度和压缩机制间进行零样本超参数迁移。在实用场景设置下(压缩比R=4,即每个概念平均对应四个词元),DLCM将约三分之一的推理计算量重新分配给高容量推理主干网络,在保持等效推理浮点运算量的前提下,于12个零样本基准测试中实现平均+2.69%的性能提升。
尽管当前的多模态大语言模型(MLLMs)在多模态推理领域取得了显著进展,但其推理过程仍以文本为核心,导致在处理复杂的长视野、视觉中心任务时表现欠佳。本文提出了一种创新的生成式多模态推理范式,并推出基于扩散模型的推理框架DiffThinker。该框架在概念层面将多模态推理重构为原生的图像到图像生成任务,从而在视觉中心任务中实现卓越的逻辑一致性与空间精确度。我们通过系统化对比DiffThinker与MLLMs,首次深入揭示了该范式的四大内在特性:高效性、可控性、原生并行性与协同性。在四大任务领域(序列规划、组合优化、约束满足和空间配置)上的大量实验表明,DiffThinker显著超越了包括GPT-5(+314.2%)、Gemini-3-Flash(+111.6%)在内的领先闭源模型,以及微调的Qwen3-VL-32B基线模型(+39.0%),这充分证明生成式多模态推理是视觉中心推理领域极具前景的研究方向。
扩散模型为语言生成提供了诱人的特性,如并行解码和迭代优化,但文本的离散性和高度结构化特性对扩散原理的直接应用构成了挑战。本文从扩散过程和语言建模的视角重新审视扩散语言建模,并阐明了将扩散机制与语言特定需求区分开的五个特性。我们首先将现有方法归类为嵌入空间中的连续扩散和词元上的离散扩散,进而证明每种方法仅满足五项关键特性中的部分特性,因而反映了结构上的权衡。通过分析近期的大型扩散语言模型,我们发现了两个核心问题:(i)均匀噪声干扰未能考虑信息在文本位置间的分布规律;(ii)词元级边际训练无法在并行解码过程中捕捉多词元依赖关系。这些发现启示我们设计更贴合文本结构的扩散过程,并推动未来研究构建更具连贯性的扩散语言模型。
在本研究中,我们发现模型容量对生成过程的影响随时间步呈现阶段性差异:在早期和晚期阶段至关重要,而在中间阶段基本可以忽略。基于此,我们提出FlowBlending——一种具有阶段感知能力的多模型采样策略,分别在容量敏感阶段和中间阶段采用大模型与小模型协同工作。我们进一步提出了划分阶段边界的简易准则,并通过速度散度分析作为识别容量敏感区域的有效代理指标。在LTX-Video(2B/13B)和WAN 2.1(1.3B/14B)数据集上的实验表明,FlowBlending在保持大模型视觉保真度、时序连贯性和语义对齐能力的同时,可实现最高1.65倍的推理加速,并减少57.35%的浮点运算量。该策略还能与现有采样加速技术兼容,实现额外最高2倍的加速效果。项目页面详见:https://jibin86.github.io/flowblending_project_page。
生成式视频建模已成为一种极具潜力的工具,能够对开放世界操作中的合理物理交互进行零样本推理。然而,如何将这类由人类引导的运动转化为机器人系统所需的底层动作仍是一大挑战。我们发现,给定初始图像和任务指令时,这些模型能出色地合成合理的物体运动。为此,我们提出Dream2Flow框架,通过三维物体流作为中间表征来连接视频生成与机器人控制。该方法从生成视频中重建三维物体运动,并将操作任务转化为物体轨迹跟踪问题。通过将状态变化与实现这些变化的执行器分离,Dream2Flow克服了具身智能差距,使预训练视频模型能对包括刚性体、铰接体、可变形体和颗粒体在内的多类别物体实现零样本引导操作。通过轨迹优化或强化学习,Dream2Flow无需任务特定示范即可将重建的三维物体流转化为可执行的底层指令。仿真与真实环境实验表明,三维物体流是适配视频生成模型至开放世界机器人操作的通用可扩展接口。视频及可视化资料详见https://dream2flow.github.io/。
模拟优化方法常面临评估噪声、高计算成本及复杂多峰搜索空间等挑战。本文提出禁忌增强模拟优化框架,这是一种融合自适应搜索与记忆策略的新型元启发式方法。该框架利用短期禁忌列表防止循环搜索并促进多样化,通过长期精英记忆库对优质解进行扰动以引导集中搜索。其中引入的渴望准则允许对特殊候选解突破禁忌限制,从而在随机环境中实现探索与开发之间的动态平衡。我们以排队系统优化问题验证本框架的有效性与可靠性,结果表明其性能优于基准方法,并证实了记忆组件的贡献。源代码与数据详见:https://github.com/bulentsoykan/TESO。