每日精选AI研究论文及翻译
多模态大语言模型的最新突破为图形用户界面自动化带来了前所未有的机遇。然而,一个根本性挑战依然存在:如何在保持标注可靠性的前提下高效获取高质量训练数据?我们推出了基于校准步骤奖励系统的自演进训练管道,通过轨迹级校准将模型生成轨迹转化为可靠训练信号,以降低10-100倍的成本实现超过90%的标注准确率。基于该管道,我们推出Step-GUI模型系列(4B/8B),在保持强大通用能力的同时实现业界领先的GUI性能(8B模型:AndroidWorld 80.2%,OSWorld 48.5%,ScreenShot-Pro 62.6%)。随着GUI智能体能力提升,实际部署需要跨异构设备的标准化接口,同时保护用户隐私。为此,我们提出GUI-MCP——首个面向GUI自动化的模型上下文协议,采用结合底层原子操作与高层任务委派的分层架构,支持敏感数据全程驻留设备的高隐私执行模式。最后,为评估智能体处理真实日常使用场景的能力,我们推出基于真实移动使用模式的AndroidDaily基准测试,包含3146个静态操作和235个端到端任务,覆盖高频日常场景(8B模型:静态任务89.91%,端到端任务52.50%)。我们的工作推动了实用GUI智能体发展,展现出在日常数字交互中实际部署的强大潜力。
效率作为大语言模型驱动智能体与推理系统的关键实践挑战,正日益受到自回归解码固有延迟的限制。推测式解码通过"草稿-验证"机制缓解这一成本,但现有方法依赖自回归草稿模型(即草案器),存在两个根本性问题:(1)逐步累积的不确定性导致目标模型与草案器间的信任度持续衰减;(2)自回归草案器固有的串行解码特性。这些因素共同导致加速效果有限。本文提出扩散大语言模型草案器能通过其根本不同的概率建模和高效并行解码策略自然克服上述问题。基于此,我们推出DEER框架——采用扩散模型生成草稿、自回归模型进行验证的高效推测式解码方案。为实现高质量草稿生成,DEER通过两阶段训练流程使基于扩散大语言模型的草案器与目标自回归模型对齐,并采用单步解码策略生成长段落草稿。实验表明DEER的草稿接受长度可达32个词元,远超EAGLE-3的10个词元。在HumanEval基准测试中,DEER配合Qwen3-30B-A3B实现5.54倍加速,而EAGLE-3仅达2.41倍。代码、模型及演示等资源详见https://czc726.github.io/DEER/
多令牌生成已成为加速基于Transformer的大模型推理的重要范式。近期研究主要探索扩散式大语言模型(dLLM)的并行解码能力以降低推理延迟。为达到自回归模型的生成质量,现有技术多将AR模型适配为dLLM以实现并行解码。然而,由于预训练与后训练不匹配问题,这些方法相较AR模型的加速效果有限。具体而言,后训练中的掩码数据分布与预训练接触的真实数据分布存在显著偏差,且dLLM依赖的双向注意力机制与预训练习得的因果先验冲突,阻碍了精确KV缓存重用的实现。为此,我们提出雅可比强迫法——一种渐进式蒸馏范式,通过让模型在自身生成的并行解码轨迹上进行训练,在保持预训练因果推理特性的同时,将AR模型平滑转换为高效并行解码器。基于该范式训练的雅可比强迫模型在代码和数学基准测试中实现了3.8倍实际加速比且性能损失极小。针对该模型的轨迹特性,我们进一步提出带拒绝回收的多块解码机制,使单次迭代的令牌接受数量提升至4.5倍,实际加速比接近4.0倍,实现了计算资源与推理延迟的高效权衡。代码已开源:https://github.com/hao-ai-lab/JacobiForcing。
当前的多模态大语言模型虽具备强大的感知与推理能力,但其高昂的计算和内存需求导致难以直接部署于端侧环境。随着小参数模型逐渐被赋予强大的通用能力,标准视觉Transformer(ViT)编码器仍是关键瓶颈——在处理高分辨率输入时存在过高延迟和内存消耗。为应对这些挑战,我们推出了HyperVL:一款专为端侧推理设计的高效多模态大语言模型。HyperVL采用图像分块策略以限制峰值内存占用,并引入两项创新技术:(1)视觉分辨率压缩器(VRC),可自适应预测最优编码分辨率以消除冗余计算;(2)双一致性学习(DCL),通过统一框架对齐多尺度ViT编码器,实现在共享大语言模型下视觉分支的动态切换。大量实验表明,HyperVL在多个基准测试中均达到同规模模型的顶尖性能,并在真实移动设备上显著降低延迟与功耗,证明了其端侧多模态推理的实用性。
近期,如结果监督型GRPO等强化学习方法虽在视觉语言模型(VLM)的思维链推理方面取得进展,但核心问题依然存在:(一)依赖成本高昂且含噪声的人工标注或外部验证器;(二)GRPO中扁平稀疏的奖励机制;(三)思维链推理与最终答案间的逻辑不一致性。我们提出拼图课程GRPO(PC-GRPO),一种基于可验证奖励的免监督强化学习方案(RLVR),无需标注或外部验证器即可增强VLM的视觉推理能力。PC-GRPO通过三个自监督拼图环境替代人工标签:PatchFit、旋转拼图(采用二元奖励)和碎片拼图(通过分级部分奖励缓解奖励稀疏问题)。针对扁平奖励与群体相对优势消失问题,我们引入难度感知课程机制,动态调整样本权重并在中等难度区间达到峰值。后训练阶段持续监控推理-答案一致性(RAC):与大型语言模型中原始GRPO的报道相呼应,RAC通常先升后降;我们的课程设计延缓了这一衰减,而强化一致性的奖励机制进一步提升了RAC。RAC与下游任务准确率呈正相关。在多样化基准测试中,基于Qwen-7B和Qwen-3B架构的PC-GRPO显著提升了推理质量、训练稳定性及终端任务准确率,为VLM提供了一条可扩展、可验证、可解释的强化学习后训练路径。
通用变换器(UT)已在ARC-AGI和数独等复杂推理任务中得到广泛应用,但其性能提升的具体来源仍未得到充分探索。本研究系统分析了UT的变体,发现ARC-AGI的性能改进主要源于Transformer的循环归纳偏置和强非线性组件,而非复杂的架构设计。基于此发现,我们提出通用推理模型(URM),通过引入短程卷积和截断反向传播来增强UT。该方法显著提升了推理性能,在ARC-AGI 1上达到53.8%的pass@1最高水平,在ARC-AGI 2上实现16.0%的pass@1指标。代码已开源:https://github.com/zitian-gao/URM。
当前视觉生成模型在图像编辑时常因栅格图像的固有特性而难以保持一致性——所有视觉内容被融合至单一画布导致编辑相互干扰。相比之下,专业设计工具采用分层表征技术,可实现局部编辑且不影响其他内容。受此启发,我们提出Qwen-Image-Layered:一种端到端扩散模型,能将单张RGB图像解耦为多个语义分离的RGBA图层,实现原生可编辑性。每个RGBA图层均可独立操控而无需改动其他内容。为支持可变数量图层分解,我们引入三大核心组件:(1)RGBA-VAE统一RGB与RGBA图像的隐空间表征;(2)VLD-MMDiT(可变层分解MMDiT)架构支持动态层数分解;(3)多阶段训练策略将预训练图像生成模型适配为多层图像分解器。针对高质量分层训练数据稀缺的问题,我们构建了从Photoshop文档(PSD)中提取并标注多层图像的自动化流程。实验表明,本方法在分解质量上显著超越现有方案,为一致性图像编辑建立了新范式。代码与模型已开源:https://github.com/QwenLM/Qwen-Image-Layered
我们提出IC-Effect——一种基于DiT的指令引导式少样本视频特效编辑框架,能够合成复杂特效(如火焰、粒子与卡通角色),同时严格保持时空一致性。视频特效编辑面临巨大挑战:注入的特效需与背景无缝融合,背景必须完全保持不变,且需从有限的配对数据中高效学习特效模式。然而现有视频编辑模型均无法满足这些要求。IC-Effect将源视频作为纯净上下文条件,利用DiT模型的上下文学习能力实现精准背景保留与自然特效注入。通过两阶段训练策略(先进行通用编辑适配,再通过Effect-LoRA进行特效专项学习),确保模型具备强指令遵循能力与鲁棒的特效建模效果。为提升效率,我们引入时空稀疏标记化技术,在显著降低计算量的同时实现高保真度。此外还发布了涵盖15种高质量视觉风格的配对特效编辑数据集。大量实验表明,IC-Effect能实现高质量、可控且时序一致的特效编辑,为视频创作开辟了新可能。
空间理解能力对于多模态大模型在物理环境中发展为通用助手至关重要。然而目前仍缺乏全面衡量该领域进展的基准测试。本研究推出MMSI-Video-Bench——首个全人工标注的视频空间智能评估基准,通过感知、规划、预测和跨视频推理四级框架,基于25个数据集及自采视频的1,278个片段构建了1,106道 grounded 问题。每个题目均由三维视觉专家精心设计并复核,附带解释性原理以确保精准无歧义。凭借多样化数据源和全栈任务覆盖,该基准还支持室内场景感知、机器人操作和实体定位三大领域专项评估。我们对25个主流开源与商用模型进行测试,发现显著的人机差距:多数模型表现接近随机猜测,最佳推理模型落后人类近60%。研究进一步表明,经过空间微调的模型仍难以有效泛化至本基准。细粒度错误分析揭示了几何推理、运动定位、长程预测和跨视频关联的系统性缺陷。实验还发现传统帧采样策略在推理密集型任务中迁移效果不佳,三维空间线索与思维链提示均未带来显著提升。我们期待该基准为推进视频空间智能研究建立坚实的测试平台。
AI驱动的视频生成技术滥用已引发严重社会担忧,凸显了对可靠AI生成视频检测器的迫切需求。然而现有方法大多局限于二元分类,缺乏可供人类理解的必要解释。本文提出Skyra——一个专精的多模态大语言模型(MLLM),能够识别AI生成视频中人类可感知的视觉伪影,并将其作为检测与解释的实证依据。为实现这一目标,我们构建了包含细粒度人工标注的首个大规模AI生成视频伪影数据集ViF-CoT-4K用于监督微调(SFT),进而开发出两阶段训练策略,系统提升模型的时空伪影感知、解释能力及检测精度。为全面评估Skyra,我们推出包含十余种前沿视频生成器产生的3K高质量样本的基准测试集ViF-Bench。大量实验表明,Skyra在多个基准测试中超越现有方法,同时我们的评估为推进可解释AI生成视频检测提供了宝贵洞见。
生成模型能够合成高度逼真的内容,即所谓的深度伪造内容,这些技术已被大规模滥用以破坏数字媒体的真实性。现有深度伪造检测方法不可靠的原因有二:其一,事后鉴别非真实内容往往不可行(例如面对记忆样本),导致假阳性率(FPR)无界上升;其二,检测缺乏鲁棒性,攻击者仅需极少计算资源即可针对已知检测器实现近乎完美的规避。为应对这些局限,我们提出一种重合成框架来判断样本是否真实,或其真实性是否可被合理质疑。针对计算受限的高效攻击者场景,我们聚焦高精度、低召回率的设定做出两项关键贡献:首先,我们证明经过校准的重合成方法是在保持可控低假阳性率的同时验证真实样本的最可靠途径;其次,我们表明该方法能实现对高效攻击者的对抗鲁棒性,而现有方法在相同计算预算下极易被规避。我们的方案支持多模态数据,并利用了最先进的逆向映射技术。
作为人类,我们天生具备任意时间跨度的推理能力——既能根据任务需求选择快速浏览长视频,也能在必要时完整观看短视频。基于这一认知,人们自然期望视频推理模型能够灵活处理不同时长的内容。然而当前最先进的模型仍采用单轮推理模式处理大量视频帧,这类似于强制观看完整长视频,需要消耗大量计算资源。这引发了一个关键问题:能否开发出高性能的任意跨度视频推理系统? 受人类行为启发,我们首先提出SAGE智能体系统:既能对长视频进行多轮推理,也能用单轮处理简单问题。其次,我们利用Gemini-2.5-Flash构建了简易合成数据生成流程,用以训练系统核心协调器SAGE-MM。我们还设计了有效的强化学习微调方案,该方案对培养SAGE-MM的任意跨度推理能力至关重要。第三,我们构建了平均时长超过700秒的SAGE-Bench评估基准,专门针对现实娱乐场景的视频推理能力进行测试。最后通过实证研究验证了系统、数据及强化学习方案的有效性:在开放式视频推理任务中实现最高6.1%的性能提升,对超过10分钟的长视频更取得8.2%的显著改进。
近期在多模态研究中,扩散范式因其独特的解码优势,已成为自回归范式(AR)的有前景的替代方案。然而,受限于基础扩散语言模型的能力,扩散视觉语言模型(dVLM)的性能仍显著落后于主流模型。这引出一个简单而根本的问题:能否基于现有强大的AR模型构建dVLM?对此,我们提出DiffusionVL——一个可从任意强大AR模型转换而来的dVLM家族。通过简单微调,我们成功将AR预训练模型适配至扩散范式,并得到两个关键发现:(1)从基于AR的多模态模型向扩散范式的转换异常高效;(2)将AR语言模型直接转换为dVLM具备可行性,其性能可与LLaVA风格的视觉指令调优相媲美。此外,我们在dVLM中引入支持任意长度生成和KV缓存复用的块解码设计,实现了显著的推理加速。大量实验表明:尽管训练数据量不足现有方法的5%,DiffusionVL在MMMU-Pro(视觉)基准上提升34.4%,在MME(认知)基准上提升37.5%,同时实现2倍推理加速。模型与代码已发布于https://github.com/hustvl/DiffusionVL。
强化学习已成为增强大语言模型推理能力的关键手段,然而当前探索机制的本质仍与模型实际学习方式存在错配。熵奖励和外部语义比较器虽能促进表面多样性,但无法保证采样轨迹在影响优化的更新方向上产生实质差异。我们提出梯度引导强化学习框架G2RL,其探索驱动力并非来自外部启发式规则,而是源于模型自身的一阶更新几何。针对每个响应,G2RL从模型最终层的敏感度中构建序列级特征——该特征可通过标准前向传播以可忽略的成本获取,并通过在采样组内比较这些特征来度量每条轨迹将如何重塑策略。引入新颖梯度方向的轨迹会获得有界的乘性奖励缩放因子,而冗余或偏离流形的更新则会被弱化,从而产生与PPO风格稳定性及KL控制天然契合的自参照探索信号。在Qwen3基础版1.7B和4B模型的数学与通用推理基准测试中,G2RL在pass@1、maj@16和pass@k指标上持续优于基于熵的GRPO和外部嵌入方法。通过分析诱导几何特征,我们发现G2RL在保持语义连贯性的同时,将探索范围扩展至更多正交且常呈对立的梯度方向,这表明策略自身的更新空间能为大语言模型强化学习的探索引导提供更忠实有效的基准。
近期多语言命名实体识别研究显示,大语言模型能提供有效的合成监督数据,但这类数据集大多作为广泛实验的副产品出现,而非系统化、可复用的资源。我们推出FiNERweb数据集构建流程,将师生范式扩展至91种语言和25种文字体系。基于FineWeb-Edu框架,该方法通过训练回归模型识别NER相关文本片段,并利用多语言大模型进行标注,最终生成约22.5万条文本片段及23.5万个独立实体标签。实验表明,回归模型F1值超过84%,基于FiNERweb训练的模型在英语、泰语和斯瓦希里语的零样本迁移任务中,仅使用基线模型1/19的数据量即可获得相当或更优的性能。通过大模型即评判员评估标注质量,忠实度(3.99/5)和完整度(4.05/5)均保持较高水平,表明标注结果可靠且信息丰富。鉴于当前最优模型使用目标语言标签评估时F1值会下降0.02至0.09,我们同步发布含英语标签及对应目标语言翻译标签的数据集。我们将FiNERweb及全套辅助资源向研究社区开放,以促进多语言命名实体识别领域更高效的师生训练范式发展。
大型语言模型(LLMs)正日益广泛地用于生成合成数据集,以支持下游模型的评估与训练。然而已有研究指出,此类生成数据存在多样性不足的问题。本文提出Voyager——一种基于数学原理的新型数据生成方法,能够有效提升数据集多样性。该方法采用迭代优化策略,通过行列式点过程机制直接优化表征数据集多样性的数学指标。此外,该方法无需训练过程、适用于闭源模型,并具备良好的可扩展性。我们不仅从理论层面论证了方法的有效性,还通过全面实验证明:相较于主流基线方法,Voyager能将数据多样性提升1.5至3倍。
自回归视频扩散模型在仿真世界方面前景广阔,但容易因训练与测试不匹配而产生曝光偏差。现有研究虽通过后训练方式解决该问题,但通常依赖双向教师模型或在线判别器。为实现端到端解决方案,我们提出重采样强制——一种无需教师模型的框架,支持从零开始大规模训练自回归视频模型。该方法的核心理念是自重采样机制,在训练过程中模拟推理阶段对历史帧产生的模型误差。基于这些降质历史帧,稀疏因果掩码在保持时序因果性的同时,支持通过帧级扩散损失进行并行训练。为提升长序列生成效率,我们进一步提出历史路由机制:这种无参数方法能动态检索与每个查询帧最相关的top-k历史帧。实验表明,本方法在达到与基于蒸馏的基线相当性能的同时,因采用原生长度训练,在长视频上展现出更优的时序一致性。
自动驾驶技术长期依赖于模块化的“感知-决策-执行”流程,其手工构建的接口与基于规则的组件在复杂或长尾场景中往往失效。这种级联设计还会传播感知误差,导致下游规划与控制性能下降。视觉-行动模型通过从视觉输入到行动的直接映射学习解决了部分局限,但仍存在可解释性差、对分布偏移敏感、缺乏结构化推理与指令跟随能力等问题。随着大语言模型与多模态学习的进展,视觉-语言-行动框架应运而生,该框架将感知与基于语言的决策相融合。通过统一视觉理解、语言推理与可执行输出,VLA为构建更具可解释性、泛化性且符合人类价值观的驾驶策略提供了路径。本文对这一新兴领域进行了系统梳理:追溯了从早期VA方法到现代VLA框架的演进脉络,将现有方法归纳为两大范式——集成感知、推理与规划于一体的端到端VLA,以及分离慢速决策(通过视觉语言模型)与快速安全关键执行(通过规划器)的双系统VLA。在此基础上,我们进一步区分了文本型与数值型动作生成器、显式与隐式引导机制等子类,总结了用于评估VLA驾驶系统的代表性数据集与基准测试,并指出了包括鲁棒性、可解释性与指令忠实度在内的关键挑战与开放问题。本研究旨为推进人机协同的自动驾驶系统建立统一的理论基础。
近期视频生成技术取得显著进展,使得模型能够生成具有同步音频的视觉吸引力视频。尽管现有视频生成基准测试提供了视觉质量的综合评估指标,但其对音视频生成尤其是同步音视频输出模型的评估仍缺乏说服力。为填补这一空白,我们推出VABench——一个多维度综合基准测试框架,旨在系统评估同步音视频生成能力。该框架涵盖三大任务类型:文本到音视频生成、图像到音视频生成以及立体声音视频生成,并建立两大评估模块共15个维度。这些维度专门评估文本-视频、文本-音频、视频-音频的成对相似性、音视频同步性、唇语一致性,以及精心设计的音视频问答对等指标。此外,VABench覆盖七大内容类别:动物声、人声、音乐、环境声、同步物理声、复杂场景和虚拟世界。我们通过系统化结果分析与可视化,力求为具备同步音频能力的视频生成模型建立新评估标准,推动该领域的全面发展。
在最基础的层面,像素是我们感知世界时视觉信息的源头。像素包含从底层属性到高层概念等各个层级的信息。自编码器是从像素或其他原始输入中学习表征的经典且历久弥新的范式。本研究表明,基于自编码器的自监督学习至今仍具竞争力,能够为下游任务生成强表征,同时保持简洁性、稳定性和高效性。我们的模型代号"Pixio"是一种增强型掩码自编码器(MAE),具备更具挑战性的预训练任务和更强大的架构。该模型通过自主筛选策略在20亿张网络爬取图像上进行训练,仅需极少量人工标注。Pixio在野外环境下的多种下游任务中均表现优异,包括单目深度估计(如Depth Anything)、前馈式三维重建(即MapAnything)、语义分割及机器人学习,其性能超越或匹配同等规模训练的DINOv3。我们的结果表明,像素空间自监督学习可作为潜在空间方法的有力替代和补充方案。
文本到图像生成模型的快速发展已彻底改变视觉内容创作领域。尽管Nano Banana Pro等商业产品获得广泛关注,但其作为传统低层级视觉任务通用解决方案的潜力尚未得到充分探索。本研究致力于回答一个关键问题:Nano Banana Pro是否堪称低层级视觉全能选手?我们通过对14类不同低层级任务、涵盖40个多样化数据集进行全面的零样本评估,在未经微调的情况下使用简单文本提示,将Nano Banana Pro与最先进的专用模型进行基准测试。深入分析揭示出明显的性能二分现象:虽然Nano Banana Pro展现出卓越的主观视觉质量,经常能生成超越专用模型的合理高频细节,但在传统基于参考指标的定量评估中表现欠佳。我们将此差异归因于生成模型固有的随机性特性,使其难以维持传统指标所需的严格像素级一致性。本报告指出Nano Banana Pro是低层级视觉任务中具备潜力的零样本竞争者,但实现领域专用模型的高保真度仍是重大挑战。
我们推出FrontierCS基准测试集,该集合包含156个涵盖计算机科学各领域的开放式问题,由包括计算机科学博士、顶级竞赛编程选手与命题专家在内的团队设计并审核。与现有聚焦已知最优解任务的基准不同,FrontierCS瞄准那些最优解尚未明确但解决方案质量可客观评估的难题。模型需通过实现可执行程序而非直接输出答案来解决问题。该测试集包含两类题型:一类是常为NP难问题的竞赛编程变体题,采用客观部分评分机制;另一类是具有相同特性的研究型问题。每个问题均配备专家参考解决方案和自动评估器。通过融合开放式设计、可量化进展与专家评审机制,FrontierCS构建了处于计算机科学难度前沿的评估基准。实证研究表明:在算法与研究双轨测试中,前沿推理模型仍远落后于人类专家;单纯增加推理预算无法弥合这一差距;模型常过度追求生成勉强可用的代码,而非探索高质量算法与系统设计。
扩展大型语言模型上下文窗口所带来的计算与内存开销严重制约了其可扩展性。视觉文本压缩技术(VTC)作为一项值得关注的解决方案,通过DeepSeek-OCR和Glyph等框架将长文本转化为稠密的二维视觉表征,实现了3至20倍的令牌压缩比。然而,这种高信息密度对视觉语言模型(VLM)核心长上下文理解能力的影响尚未得到充分研究。为填补这一空白,我们首次提出VTC专项评测基准,系统评估VLMs在三种长上下文理解场景下的表现:VTC检索任务考察模型信息检索与聚合能力;VTC推理任务要求模型通过潜在关联推断定位词汇重叠度极低的事实;VTC记忆任务则衡量长期对话记忆中的综合问答能力。此外,我们构建了VTCBench-Wild以模拟多样化输入场景。通过对主流开源与商用模型的全面评估,研究发现尽管大多数VLM能较好解码文本信息(如OCR),但在处理VTC压缩信息时表现出惊人的长上下文理解缺陷,难以捕捉上下文中的长程关联与依赖。本研究深化了对VTC技术的认知,为设计更高效可扩展的VLM提供了理论基础。
大型语言模型(LLM)智能体正日益部署于产生海量动态上下文的环境中。然而,一个关键瓶颈依然存在:尽管智能体能够访问这些上下文,但其静态提示缺乏有效管理机制,导致纠正与增强型故障反复发生。为弥补这一能力缺口,我们提出SCOPE(基于提示自我演进的上下文优化框架)。该框架将上下文管理构建为在线优化问题,通过综合执行轨迹中的指导原则,实现智能体提示的自主演进。我们设计了一种双流机制,在战术特异性(解决即时错误)与战略通用性(演进长期原则)之间实现平衡。此外,引入视角驱动探索机制以最大化策略覆盖范围,提升智能体针对任意任务具备正确策略的概率。在HLE基准测试中,SCOPE将任务成功率从14.23%提升至38.64%且无需人工干预。代码已开源:https://github.com/JarvisPei/SCOPE。
自动识别系统(AIS)虽能实现数据驱动的海事监控,但存在可靠性不足与数据间隔不规则的问题。针对全球范围AIS数据的船舶目的地估计任务,我们提出一种差异化方法,将长距离港到港轨迹重构为嵌套式序列结构。该方法通过空间网格化在保持精细分辨率的同时缓解时空偏差。我们设计了新颖的深度学习架构WAY,用于处理重构后的轨迹以实现提前数天至数周的长期目的地预测。WAY由轨迹表征层和通道聚合序列处理(CASP)模块构成:表征层从运动学与非运动学特征生成多通道向量序列;CASP模块采用多头通道注意力与自注意力机制实现信息聚合与序列传递。此外,我们提出专用于本任务的梯度丢弃(GD)技术,通过对单标签样本进行多对多训练,基于样本长度随机阻断梯度流以抑制偏差反馈激增。在五年期AIS数据上的实验表明,WAY相较于传统空间网格方法具有显著优势,且不受轨迹进度影响。结果进一步验证GD技术能提升模型性能。最后,我们通过ETA估计的多任务学习探索了WAY在实际应用中的潜力。
强化学习(RL)智能体的性能关键取决于底层特征表示的质量。双曲特征空间特别适合这一需求,因其能自然捕捉复杂RL环境中普遍存在的层次化与关联性结构。然而,由于RL的非平稳性,利用这些空间通常面临优化挑战。本研究揭示了决定双曲深度RL智能体训练成败的关键因素。通过分析庞加莱球模型和双曲面模型中核心运算的梯度,我们发现大范数嵌入会破坏基于梯度的训练稳定性,导致近端策略优化(PPO)中的信任域违例。基于这些发现,我们提出Hyper++新型双曲PPO智能体,其包含三大组件:(i)通过分类价值损失替代回归实现稳定的评论家训练;(ii)特征正则化在保证有界范数的同时避免梯度裁剪引发的维度灾难;(iii)采用优化友好的双曲网络层形式。在ProcGen平台的实验中,Hyper++能确保稳定学习,性能超越现有双曲智能体,并将墙钟时间缩短约30%。在Atari-5环境配合Double DQN算法时,Hyper++显著优于欧几里得与双曲基线方法。代码已发布于https://github.com/Probabilistic-and-Interactive-ML/hyper-rl。
小型语言模型(SLM)在需要低延迟和轻量级部署的任务中应用广泛,尤其适用于文本分类场景。随着可解释性与鲁棒性需求日益增长,基于归因指导的学习范式通过引入 attribution 监督信号已成为有效训练框架,但如何获取通用可靠的归因先验仍存挑战。通过对分类任务中代表性归因方法的分析,我们发现尽管这些方法能可靠地突出类别相关标记,但其注意力常集中于语义相近类别共享的通用关键词。由于此类别在标准训练下本就难以区分,现有归因提供的判别性线索不足,限制了其提升模型区分能力的效果。为突破此局限,我们提出类别感知归因先验(CAP)——一种引导语言模型捕捉细粒度类别差异、生成更显著判别性归因先验的新框架。基于此,我们进一步设计CAP混合策略,将CAP先验与现有归因技术相结合,形成更全面均衡的监督信号。通过使模型的自归因与这些增强先验对齐,我们的方法促进了多样化决策相关特征的学习。在全数据、少样本及对抗场景下的广泛实验表明,该方法能持续提升模型的可解释性与鲁棒性。
专家混合模型已成为扩展语言模型规模而不显著增加计算成本的事实架构。近期MoE模型呈现出明显趋势:专家粒度更细(专家中间维度更小)、稀疏度更高(激活专家数恒定而专家总数增加),从而提升每FLOP的模型质量。然而,细粒度MoE因更高的IO成本导致激活内存占用增加和硬件效率降低,而更稀疏的MoE则因分组GEMM内核中的填充操作产生计算浪费。为此,我们提出一种内存高效算法,通过最小化反向传播的激活缓存来计算MoE的前向与反向传播。我们还设计了可重叠内存IO与计算的GPU内核,使所有MoE架构受益。最后,我们提出新颖的"令牌舍入"方法,最大限度减少分组GEMM内核因填充导致的算力浪费。实验表明,对于细粒度70亿参数MoE模型,SonicMoE相比ScatterMoE的BF16 MoE内核降低45%激活内存,并在Hopper GPU上实现1.86倍计算吞吐量提升。具体而言,在64张H100上使用FSDP-2和lm-engine代码库训练70亿参数MoE时,SonicMoE的日训练吞吐量达2130亿令牌,媲美ScatterMoE在96张H100上的2250亿令牌/日表现。在高MoE稀疏度设置下,我们的分块感知令牌舍入算法相比传统Top-K路由在保持下游性能的同时,可获得内核执行时间1.16倍的额外加速。我们将所有内核开源以促进更高效的MoE模型训练。
个性化大语言模型应具备记忆用户信息、准确应用这些信息并随时间推移不断适应用户偏好以提供更受欢迎回复的能力。现有LLM个性化基准主要围绕两个维度展开:精确回忆用户信息,以及在后续任务中准确应用已记忆信息。我们认为第三个维度——好感度——虽具主观性但对用户体验至关重要,而当前基准对此衡量不足。为全面评估好感度,我们推出LikeBench:一个多轮次动态评估框架,通过衡量LLM随时间推移适应用户偏好以提供更受欢迎回复的能力,从多维度评估好感度。在该框架中,LLM与模拟用户对话,仅通过持续交流学习用户偏好。随着互动推进,模型尝试调整回复策略,并在每轮对话后由同一模拟用户从七个维度进行好感度评估。我们首次将好感度分解为七大诊断指标:情感适应性、正式度匹配、知识适应性、指代理解、对话长度契合度、幽默匹配度及话题呼应能力,从而精准定位模型短板。为使模拟用户更具真实性和区分度,LikeBench采用基于心理学的细粒度描述性人物画像,而非以往研究中粗糙的高/低特质评级。我们的基准测试表明,强记忆性能并不保证高好感度:DeepSeek R1的记忆准确率(86%,每档案17条事实)虽低于Qwen3(93%,每档案43条事实),但其好感度得分反超后者28%。即便是GPT-5等前沿模型,在简短交流中表现良好,但在更长、更具噪声的互动中仅展现出有限的鲁棒性。
机器人操作既需要丰富的多模态感知能力,也需有效的学习框架以应对复杂现实任务。透皮式(STS)传感器融合触觉与视觉感知,具备前景广阔的传感能力,而现代模仿学习为策略获取提供了强大工具。然而,现有STS设计缺乏同步多模态感知能力,且存在触觉追踪不可靠的问题。此外,如何将这些丰富的多模态信号整合到基于学习的操作流程中仍是开放挑战。我们提出具备同步视觉感知与鲁棒触觉信号提取能力的TacThru传感器,以及利用多模态信号进行操作的TacThru-UMI模仿学习框架。该传感器采用全透明弹性体、持久照明、新型标记线及高效追踪技术,学习系统则通过基于Transformer的扩散策略整合多模态信号。在五项现实挑战性任务上的实验表明,TacThru-UMI平均成功率达85.5%,显著优于交替触觉-视觉(66.3%)和纯视觉(55.4%)基线。该系统在关键场景中表现卓越,包括对薄软物体的接触检测及需要多模态协同的精密操作。本研究证明,将同步多模态感知与现代学习框架相结合,可实现更精准、自适应的机器人操作。
人类对话包含持续的言语交流及传递注意力和情绪的非语言线索(如点头、视线转移和面部表情)。在三维空间中建模这种双向动态对于构建具有表现力的虚拟形象和交互式机器人至关重要。然而现有框架常将说话与倾听视为独立过程,或依赖非因果的全序列建模,导致跨对话轮次的时间连贯性受阻。我们提出TIMAR(轮次级交错掩码自回归)框架,这是一种用于三维对话头部生成的新型因果建模方法,将对话建模为交错的多模态上下文。该框架在每轮对话中融合多模态信息,应用轮次级因果注意力机制累积对话历史,同时通过轻量级扩散头部预测连续的三维头部动态,兼顾协调性与表现力变化。在DualTalk基准测试中,TIMAR在测试集上使弗雷歇距离和均方误差降低15-30%,在分布外数据上也取得相近提升。源代码将发布于GitHub仓库https://github.com/CoderChen01/towards-seamleass-interaction。