每日精选AI研究论文及翻译
多模态推理需要语言与视觉的迭代协同,然而目前尚不清楚何种交织的思维链具有实际意义。我们提出,文本与图像思维应作为互补而非同构的模态,共同推进推理进程。基于此原则,我们构建了ThinkMorph模型——通过在24K高质量交织推理轨迹上微调的通用模型,这些数据涵盖不同视觉参与度的任务。ThinkMorph能够生成渐进式的文本-图像推理步骤,在保持连贯语言逻辑的同时实现对视觉内容的具体操控。该模型在视觉中心基准测试中实现显著提升(较基础模型平均提升34.7%),并能泛化至领域外任务,达到甚至超越规模更大、参数闭源的视觉语言模型水平。除性能优势外,ThinkMorph展现出新兴的多模态智能特征,包括未经训练的视觉操控技能、自适应推理模式切换能力,以及通过多样化多模态思维实现更优的测试时扩展性。这些发现为探索统一多模态推理模型的新兴能力表征指明了富有前景的方向。
当代AI硬件(如英伟达Blackwell架构)正日益采用低精度浮点格式来处理大语言模型中普遍存在的激活值异常值。尽管行业呈现这一趋势,但针对不同粒度下浮点与整数量化方法的系统性对比研究仍属空白,导致算法与硬件协同设计缺乏明确指导。本文通过系统研究浮点与整数格式的权衡填补了这一空白。我们揭示了一个关键的性能分界点:虽然浮点格式在粗粒度量化中表现优异,但在细粒度(分块级)量化中的对比更为复杂。我们的全面实验表明,对于流行的8位细粒度格式(如块大小为32的MX格式),MXINT8在算法精度和硬件效率上均优于同规格浮点格式。然而在4位格式中,浮点量化(如MXFP4、NVFP4)通常具有精度优势,但我们发现当采用哈达玛变换等异常值抑制技术时,NVINT4能够超越NVFP4。我们还提出了一种对称裁剪方法,解决了细粒度低比特整数量化训练中的梯度偏差问题,使MXINT8训练实现近乎无损的性能。这些发现对当前硬件发展路径提出了挑战,证明"一刀切"的浮点方案并非最优选择,并论证了细粒度整数格式(特别是MXINT8)能为未来AI加速器提供更优的精度、功耗与效率平衡。
大型语言模型(LLM)的效率从根本上受限于其逐词元的顺序生成过程。我们认为,突破这一瓶颈需要为LLM扩展引入新的设计维度:提升每一步生成过程的语义带宽。为此,我们提出连续自回归语言模型(CALM),实现了从离散下一词元预测到连续下一向量预测的范式转变。CALM采用高保真自编码器将包含K个词元的文本块压缩为单个连续向量,并能以超过99.9%的准确率重建原始词元。这使得我们可以将语言建模为连续向量序列而非离散词元序列,从而将生成步骤数量减少至原来的1/K。这一范式转变需要新的建模工具,因此我们开发了完整的无似然框架,支持在连续域中进行稳健的训练、评估和可控采样。实验表明,CALM显著优化了性能与计算量的权衡关系,在显著降低计算成本的同时达到了强离散基线的性能水平。更重要的是,这些发现确立了下一向量预测作为实现超高效语言模型的一条强大且可扩展的技术路径。代码:https://github.com/shaochenze/calm。项目主页:https://shaochenze.github.io/blog/2025/CALM。
基于视觉语言模型(VLM)驱动的计算机操作智能体已在移动平台等数字环境中展现出类人的操作能力。尽管这些智能体在推动数字化自动化方面前景广阔,但其可能引发的系统入侵、隐私泄露等不安全操作风险正引发严重关切。在移动环境广阔而复杂的操作空间中检测这些安全隐患,仍是一个亟待深入探索的重大挑战。为奠定移动智能体安全研究的基础,我们推出MobileRisk-Live动态沙箱环境及配套的安全检测基准,该基准包含带有细粒度标注的真实操作轨迹。基于此,我们提出OS-Sentinel新型混合安全检测框架,通过将检测显性系统违规的形式化验证器与评估情境风险及智能体行为的VLM情境判断器相结合,实现协同检测。实验表明,OS-Sentinel在多项指标上较现有方法提升10%-30%。深入分析为开发更安全可靠的自主移动智能体提供了关键洞见。
视觉-语言-动作(VLA)模型使机器人能够通过多模态输入理解并执行复杂任务。尽管近期研究探索利用强化学习(RL)来自动化监督微调(SFT)扩展过程中繁琐的数据收集流程,但由于基于流的VLA模型(如π₀、π₀.₅)在迭代去噪过程中存在难以处理的动作对数似然,将大规模RL应用于此类模型仍具挑战性。 我们提出π_{RL}——一个专为并行仿真训练基于流的VLA模型设计的开源框架来解决这一难题。该框架实现两种RL算法:(1){Flow-Noise}将去噪过程建模为离散时间马尔可夫决策过程,通过可学习的噪声网络实现精确对数似然计算;(2){Flow-SDE}将去噪与智能体-环境交互相结合,构建双层马尔可夫决策过程,采用常微分方程-随机微分方程转换实现高效RL探索。 我们在LIBERO和ManiSkill基准测试中评估π_{RL}。在LIBERO上,π_{RL}将小样本SFT模型π₀和π₀.₅的性能分别从57.6%提升至97.6%、从77.1%提升至98.3%。在ManiSkill的4352项抓放任务中,我们通过320个并行仿真环境训练π_{RL},使π₀从41.6%提升至85.7%,π₀.₅从40.0%提升至84.8%,展现了异构仿真环境下可扩展的多任务RL能力。 总体而言,π_{RL}相较SFT模型实现了显著性能提升和更强泛化能力,验证了在线强化学习对于基于流的VLA模型的有效性。
大型语言模型(LLM)的强化学习(RL)微调常因训练策略与推理策略间的数值失配而存在稳定性问题。尽管先前研究尝试通过算法修正或工程对齐来缓解此问题,但我们发现其根本原因在于浮点数精度本身。广泛采用的BF16格式虽具有较大动态范围,却会引入显著舍入误差,破坏训练与推理的一致性。本研究表明,仅需恢复使用FP16格式即可有效消除这种失配。这一改动极为简便,现代框架完全支持且仅需数行代码调整,无需改变模型架构或学习算法。实验结果表明,统一采用FP16能在不同任务、算法和框架中实现更稳定的优化、更快的收敛速度以及更强的性能表现。我们希望这些发现能促使学界重新审视RL微调中的精度权衡问题。
空间理解能力仍是大型视觉语言模型(LVLM)的薄弱环节。现有的监督微调(SFT)与近期基于可验证奖励的强化学习(RLVR)方法依赖于成本高昂的监督信号、专用工具或受限环境,制约了其扩展性。我们提出Spatial-SSRL——一种自监督强化学习范式,可直接从普通RGB或RGB-D图像中提取可验证信号。该范式自动构建了五项捕捉二维与三维空间结构的预训练任务:乱序图像块重组、翻转图像块识别、裁剪图像块修复、区域深度排序以及相对三维位置预测。这些任务提供的真值答案易于验证,且无需人工或LVLM标注。基于本任务的训练在保持通用视觉能力的同时,显著提升了空间推理性能。在涵盖图像与视频场景的七项空间理解基准测试中,Spatial-SSRL相较Qwen2.5-VL基线模型实现了平均准确率提升(3B参数模型提升4.63%,7B参数模型提升3.89%)。实验结果表明,简单的内在监督机制可实现规模化RLVR训练,为增强LVLM的空间智能提供了实用路径。
分布匹配蒸馏(DMD)将基于分数的生成模型蒸馏为高效的一步生成器,无需与教师模型的采样轨迹保持一一对应。然而,受限的模型容量导致一步蒸馏模型在复杂生成任务(如文本到视频生成中合成精细物体运动)上表现不佳。直接将DMD扩展为多步蒸馏会增大内存占用和计算深度,导致训练不稳定与效率下降。虽然已有研究提出随机梯度截断作为潜在解决方案,但我们发现这会显著降低多步蒸馏模型的生成多样性,使其降至一步蒸馏模型的水平。为突破这些局限,我们提出分阶段DMD——一种融合分阶段蒸馏与混合专家(MoE)思想的多步蒸馏框架,在降低学习难度的同时提升模型容量。该框架基于两大核心思想:渐进式分布匹配与子区间分数匹配。首先,模型将信噪比范围划分为多个子区间,通过逐步向更高信噪比层级精炼模型,以更好地捕捉复杂分布。其次,为确保每个子区间内训练目标的准确性,我们进行了严谨的数学推导。通过蒸馏包括Qwen-Image(200亿参数)和Wan2.2(280亿参数)在内的前沿图像与视频生成模型,我们验证了分阶段DMD的有效性。实验结果表明,分阶段DMD在保持关键生成能力的同时,比DMD能更好地保留输出多样性。我们将公开代码与模型。
多模态位置编码对视觉语言模型至关重要,然而目前缺乏对其的系统性研究。本文通过分析旋转位置嵌入(RoPE)的两个核心要素——位置设计与频率分配,开展了全面的多模态RoPE研究。大量实验揭示了三大关键准则:位置连贯性、全频段利用以及文本先验保持——这确保了清晰的布局表征、丰富的语义表达以及预训练大语言模型知识的忠实迁移。基于这些发现,我们提出了多头RoPE(MHRoPE)与交错式多模态RoPE(MRoPE-I)两种即插即用型改进方案,无需改变模型结构。在多样化基准测试中,我们的方法始终优于现有技术,在通用多模态理解和细粒度语义理解任务上均取得显著提升。代码已开源于https://github.com/JJJYmmm/Multimodal-RoPEs。
自主图形用户界面(GUI)代理依赖精确的GUI定位技术——即将语言指令映射到屏幕坐标——来执行用户命令。然而,当前无论是通过监督微调(SFT)还是强化微调(RFT)训练的模型,都缺乏对自身能力边界的认知,导致过度自信和不可靠的预测。我们首先系统评估了通用模型与GUI专用模型中的概率化置信度与言语化置信度,揭示了置信度与实际准确性之间的错位问题。这种错位在动态GUI自动化任务中尤为关键,因为单个错误就可能导致任务失败。 为解决这一问题,我们提出HyperClick创新框架,通过不确定性校准来增强GUI定位的可靠性。该框架引入双重奖励机制:将正确动作的二元奖励与基于截断高斯分布的空间置信度建模相结合,并采用Brier分数进行校准。该方法联合优化定位准确性与置信度可靠性,促进内省式自我批判。在七大挑战基准上的大量实验表明,HyperClick在实现最先进性能的同时,能提供良好校准的置信度。通过实现显式置信度校准与内省式自我批判,HyperClick有效降低了过度自信问题,为GUI自动化提供了更可靠的支持。
思维链(CoT)推理的冗长性阻碍了其在效率敏感场景中的大规模部署。近期兴起的隐式CoT方法将推理步骤编码于大语言模型的隐藏嵌入中(称为“隐式推理”),而非显式令牌。该方法通过缩短推理长度并绕过部分LLM组件来加速CoT。然而现有隐式CoT技术面临两大挑战:(1)未能保持隐式推理(转化为自然语言时)与真实推理之间的语义对齐,导致CoT性能显著下降;(2)仅关注缩短隐式推理长度,却忽略了LLM生成单个隐式推理令牌的时间成本。为应对这些挑战,我们提出新型语义对齐隐式CoT框架SemCoT。针对首个挑战,我们设计了基于对比训练的句子转换器来评估隐式与显式推理的语义对齐度,以此保障隐式推理优化过程中的语义保持。针对第二项挑战,我们通过知识蒸馏微调轻量级语言模型,构建高效隐式推理生成器。该生成器在句子转换器引导下,将真实推理蒸馏为语义对齐的隐式推理,同时优化准确性。SemCoT是首个通过联合优化令牌级生成速度与真实推理语义对齐来提升CoT效率的方法。大量实验表明,SemCoT在效率与效果上均优于现有最优方法。代码详见https://github.com/YinhanHe123/SemCoT/。
缩放点积注意力的二次计算成本是阻碍自回归语言模型向长上下文扩展的核心障碍。线性注意力与状态空间模型虽提供了可扩展的替代方案,但通常受限于一阶或基于核函数的近似,这可能削弱其表达能力。我们提出高阶线性注意力(HLA),这是一种因果流式处理机制,通过紧凑的前缀充分统计量实现高阶交互。在二阶情形下,HLA仅需维持恒定大小的状态,无需显式构建任何n×n矩阵即可在线性时间内完成逐词元输出。我们给出了封闭形式的流式计算恒等式、使用两个附加摘要的严格因果掩码变体,以及基于关联扫描的块并行训练方案,该方案可精确复现串行递归的激活值。我们进一步勾勒出向三阶及更高阶的扩展路径。这些成果共同将HLA确立为一种兼具注意力式数据依赖混合能力与现代循环架构效率的、具有理论依据的可扩展基础模块。项目页面:https://github.com/yifanzhang-pro/HLA。
多模态大语言模型(MLLMs)通过实现直接感知、推理和基于视觉输入的任务导向行动规划,推动了具身智能体的发展。然而,这种视觉驱动的具身智能体也催生了新的攻击面:视觉后门攻击——智能体在环境中出现视觉触发器之前表现正常,一旦触发器出现便会持续执行攻击者预设的多步策略。我们提出BEAT框架,首次实现基于环境物体作为触发器向MLLM具身智能体注入此类视觉后门。与文本触发器不同,物体触发器会因视角和光照产生巨大差异,导致难以稳定植入。BEAT通过双重机制应对该挑战:(1)构建覆盖多样化场景、任务及触发器布局的训练集,使智能体充分适应触发器变异;(2)引入两阶段训练方案,先进行监督微调(SFT),再采用新颖的对比触发器学习(CTL)。CTL将触发器识别建模为含触发器与无触发器输入的偏好学习,通过显式锐化决策边界确保精准的后门激活。在多种具身智能体基准测试和MLLMs中,BEAT实现了高达80%的攻击成功率,同时保持优异的正常任务性能,并能可靠泛化至分布外触发器布局。值得注意的是,在有限后门数据下,CTL相较传统SFT将后门激活准确率提升最高达39%。这些发现揭示了基于MLLM的具身智能体存在重大且未被探索的安全风险,表明其实际部署前亟需构建有效防御机制。
随着大语言模型在社会中扮演日益重要的角色,它们越来越多地面临不仅需要调用通用知识、还需符合特定人类价值观的问题。因此,研究大语言模型与人类价值观的对齐已成为关键领域。然而现有研究大多聚焦于评估已训练完成模型的对齐表现,忽视了模型学习表达人类价值观的训练动态过程。本文通过探究模型在后训练过程中价值观对齐形成的方式与阶段,揭示了后训练算法与数据集的影响效应,并量化了训练期间价值观漂移的幅度与时机。基于不同规模的Llama-3和Qwen-3模型,结合主流监督微调及偏好优化的数据集与算法进行实验,我们发现监督微调阶段通常奠定模型的价值观基础,而后续的偏好优化很少重新调整这些价值观。此外,通过使用可控制价值观参数的合成偏好数据集,我们发现即使偏好数据保持不变,不同的偏好优化算法也会导致不同的价值观对齐结果。这些发现为理解后训练过程中价值观的学习机制提供了可行见解,有助于指导数据筛选、模型选择以及偏好优化算法的选用,从而提升模型与人类价值观的对齐程度。
近期,通过引入世界模型增强视觉-语言-动作模型(VLA)在机器人策略学习方面展现出潜力。然而,由于状态观测与动作序列两种模态间的固有差异,联合预测下一状态观测和动作序列仍具挑战性。为此,我们提出双流扩散框架(DUST),这一世界模型增强型VLA框架通过处理模态冲突,有效提升了模型在多样化任务中的性能。具体而言,我们设计了一种多模态扩散Transformer架构,在保持独立模态流的同时实现跨模态知识共享。此外,我们引入了针对各模态的独立噪声扰动机制和解耦流匹配损失函数。该设计使模型能够以双向方式学习联合分布,同时避免了对统一潜在空间的需求。基于训练阶段的模态解耦,我们还提出了支持测试时缩放的交联合采样方法,使动作与视觉令牌能够以不同速率异步演化。在RoboCasa和GR-1等模拟基准测试中,DUST相较基线方法最高提升6%的性能,而测试时缩放策略额外带来2-5%的增益。在基于Franka Research 3的真实任务中,DUST将成功率提高13%,证实了其超越仿真环境的有效性。此外,在BridgeV2无动作视频数据集上的预训练为RoboCasa任务带来显著迁移增益,凸显了DUST在大规模VLA预训练方面的潜力。
我们推出Denario——一款作为科研助手设计的AI多智能体系统。该系统能够执行多种任务,包括生成创意、文献调研、制定研究计划、编写执行代码、绘制图表以及起草与评审科学论文。Denario采用模块化架构,既可处理生成想法等特定任务,也能借助Cmbagent深度研究后端完成端到端的科学分析。本文详细阐述了Denario及其模块架构,并通过展示其在天体物理学、生物学、生物物理学、生物医学信息学、化学、材料科学、数学物理、医学、神经科学和行星科学等多学科领域生成的AI论文来彰显其能力。该系统尤其擅长跨学科思想融合,我们特别呈现了一篇将量子物理学与机器学习方法应用于天体物理数据的论文作为例证。我们报告了领域专家对这些论文的评估结果,包括量化评分和审稿式反馈,进而剖析当前系统的优势、不足与局限。最后,我们探讨了AI驱动科研的伦理影响,并反思该技术与科学哲学的内在关联。代码已公开发布于https://github.com/AstroPilot-AI/Denario,用户可通过https://huggingface.co/spaces/astropilot-ai/Denario 在线体验演示版,完整应用即将部署至云端。
数学推理是大型语言模型面临的核心挑战,不仅要求答案正确,更需要可信的推理过程。可验证奖励的强化学习(RLVR)已成为提升此类能力的有效途径,但其能否真正培养推理能力尚不明确。我们在两个具有完全可验证解的组合问题上展开研究:活动调度问题与最长递增子序列问题,采用包含唯一最优解的精细数据集。通过多种奖励设计发现,RLVR虽能提升评估指标,但往往通过强化表面启发式策略而非习得新推理方法实现。这些发现揭示了RLVR泛化能力的局限性,强调需要能区分真正数学推理与捷径利用的基准测试,以提供对进展的可信衡量。代码详见https://github.com/xashru/rlvr-seq-generalization。
视觉-语言-动作模型(VLAs)是具身智能领域的重要前沿,旨在将数字知识与物理世界交互相融合。尽管这类模型已展现出卓越的通用能力,但其底层大规模基础模型固有的巨大计算与数据需求严重制约了实际部署。为应对这些紧迫挑战,本文首次从数据-模型-训练全流程视角对高效视觉-语言-动作模型(Efficient VLAs)展开系统性综述。我们提出统一分类法,将现有技术归纳为三大核心支柱:(1)聚焦高效架构与模型压缩的高效模型设计;(2)降低模型学习过程计算负担的高效训练;(3)解决机器人数据获取与利用瓶颈的高效数据收集。通过对该框架下前沿方法的批判性分析,本综述不仅为学界建立基础参考系,还总结了代表性应用场景,厘清关键挑战,并绘制未来研究路线图。我们通过持续更新的项目页面追踪最新进展:https://evla-survey.github.io/
大型语言模型(LLMs)正在通过让用户以对话形式表达偏好并获取推荐,重塑推荐系统的范式。然而将LLMs适配至推荐任务仍存在挑战:预训练模型常生成目录外项目、违反输出格式要求,且其推荐列表末段的排序质量急剧下降。为此,我们提出ConvRec-R1——一个用于端到端训练基于LLM的对话推荐系统的两阶段框架。第一阶段通过重映射-反思-调整流程构建行为克隆数据集,从强大的黑盒LLMs中生成高质量、基于商品目录的示范样本,为强化学习训练提供预热初始化。第二阶段提出Rank-GRPO,这是针对排序式输出任务对群体相对策略优化(GRPO)的改进方案。该方法将推荐列表中的每个排名位置而非单个词元(过于细粒度)或完整序列(过于粗粒度)作为优化单元,通过重新定义奖励函数消除非因果性贡献分配,并基于按排名位置统计的词元概率几何平均数构建排名级重要性比率,以稳定策略更新。在公开Reddit-v2数据集上的实验表明,ConvRec-R1相比GRPO类基线方法收敛更快,并在召回率和NDCG指标上表现更优。代码与数据集已发布于https://github.com/yaochenzhu/Rank-GRPO。
文本到图像(T2I)模型正日益广泛应用于合成数据集生成,但为分类任务生成有效的合成训练数据仍具挑战性。基于少量真实样本对T2I模型进行微调可提升合成训练数据质量,但可能引发过拟合并降低生成样本的多样性。针对细粒度分类任务,我们提出BOB(超越对象边界)微调策略以缓解上述问题。该方法首先从少量真实样本中提取类别无关属性(如场景背景和物体姿态),随后在T2I模型微调过程中显式约束这些属性,并在生成阶段对其进行边缘化处理。该设计能有效抑制过拟合、保留T2I模型的生成先验、降低估计误差,并进一步减少非预期的类间关联。通过在多个T2I模型、骨干网络和数据集上的广泛实验表明,本方法在使用合成数据增强的低样本细粒度分类任务中达到最先进性能。具体而言,在Aircraft数据集上,BOB相较DataDream方法提升7.4%(当使用5张真实图像与100张合成图像微调CLIP分类器时,准确率从50.0%提升至57.4%)。在四项基准测试中,有三项使用BOB增强的5张真实图像微调下游模型的效果优于直接使用10张真实图像。总体而言,BOB在24个实验设置中的18个超越现有技术,其中14个设置的准确率提升超过2%。
精确的建筑实例分割与高度分类对于城市规划、三维城市建模及基础设施监测至关重要。本文针对YOLO系列深度学习模型的最新进展YOLOv11展开详细分析,重点探讨其在卫星图像中联合进行建筑提取与离散高度分类的应用。YOLOv11通过引入能更有效融合多尺度特征、提升目标定位精度并增强复杂城市场景性能的高效架构,延续了早期YOLO模型的优势。基于DFC2023 Track 2数据集(涵盖12个城市超过12.5万栋标注建筑),我们采用精确率、召回率、F1分数和平均精度均值(mAP)等指标评估YOLOv11性能。实验表明,该模型在保持五级预设高度分类鲁棒性的同时,实现了mAP@50达60.4%、mAP@50-95达38.3%的优秀实例分割性能,尤其在处理遮挡、复杂建筑形态和类别不平衡(如罕见高层建筑)方面表现突出。对比分析证实YOLOv11在检测精度与推理速度上均优于早期多任务框架,适用于实时大规模城市测绘。本研究通过简化的分层高度建模,揭示了YOLOv11推动语义化城市重建的潜力,为遥感与地理空间智能领域的未来发展提供了可操作的见解。
健康相关谬误信息广泛存在且具有潜在危害性,尤其当这些言论曲解或误读科学发现时更难以识别。本研究基于MISSCI数据集与框架,探究合成数据生成与轻量化微调技术对大型语言模型识别谬误论证能力的影响。我们提出MisSynth技术方案:通过检索增强生成技术创建合成谬误样本,进而微调大型语言模型。实验结果表明,经过微调的模型相较原始基线模型取得显著精度提升。例如,LLaMA 3.1 8B微调模型在MISSCI测试集上的F1分数较原始基线实现超过35%的绝对提升。研究证明,即使计算资源有限,通过引入合成谬误数据来扩充有限标注资源,能显著增强大型语言模型在真实场景科学谬误分类任务中的零样本性能。代码与合成数据集详见https://github.com/mxpoliakov/MisSynth。
卡牌游戏被广泛用于研究不确定性下的序列决策问题,在谈判、金融和网络安全领域具有现实对应模型。根据控制流模式,这类游戏通常可分为三类:严格顺序型(玩家轮替执行单动作)、确定性响应型(特定动作触发固定结果)以及无界互惠响应型(允许交替反制)。一种研究较少但策略丰富的结构是有限单边响应机制——当玩家行动短暂将控制权转移给对手时,对手必须通过一个或多个操作满足固定条件才能结束回合。我们将具有此机制的游戏称为有限单边响应游戏(BORGs)。我们以改良版《地产大亨卡牌游戏》作为基准环境来隔离这种动态机制,其中"收取租金"行动会强制对手选择支付资产。金牌算法反事实遗憾最小化(CFR)无需新算法扩展即可收敛于有效策略。我们构建的轻量级全栈研究平台整合了游戏环境、并行化CFR运行时及可人机对战的网页界面。训练完成的CFR智能体及源代码已发布于https://monopolydeal.ai。