每日精选AI研究论文及翻译
视频基础模型能够生成视觉逼真且时序连贯的内容,但其作为世界模拟器的可靠性取决于是否遵循物理、逻辑与空间约束。现有指标如弗雷歇视频距离(FVD)侧重感知质量,却忽略了推理缺陷,包括对因果关系、物理规律和全局一致性的违背。我们提出多模态生成推理评估基准(MMGR),该框架基于五大推理能力构建原则性评估体系:物理推理、逻辑推理、3D空间推理、2D空间推理及时序推理。MMGR在三大领域评估生成式推理能力:抽象推理(ARC-AGI、数独)、具身导航(真实3D环境导航与定位)及物理常识(运动场景与组合交互)。通过需同时满足视频与图像生成整体正确性的细粒度指标,我们对主流视频模型(Veo-3、Sora-2、Wan-2.2)和图像模型(Nano-banana、Nano-banana Pro、GPT-4o-image、Qwen-image)进行基准测试,发现各领域存在显著性能差距。模型在物理常识任务中表现尚可,但在抽象推理领域准确率极低(ARC-AGI低于10%),且在具身环境的长程空间规划中表现不佳。分析揭示了当前模型的核心局限:过度依赖感知数据、全局状态一致性薄弱,以及优化目标偏向视觉合理性而非因果正确性。MMGR提供了统一的诊断基准,为构建具备推理能力的生成式世界模型指明方向。
本文提出WorldPlay——一种支持实时交互式世界建模的流式视频扩散模型,该模型通过保持长期几何一致性,解决了现有方法在速度与内存之间的权衡难题。WorldPlay的核心优势源于三大创新:1)采用双重动作表征机制,实现对键盘鼠标输入的鲁棒动作控制;2)通过动态重构记忆库技术,对历史帧进行上下文重组并利用时序重构保留几何关键帧,有效缓解记忆衰减;3)提出面向记忆感知模型的上下文强制蒸馏法,通过对齐师生模型的记忆上下文,在保证实时生成速度的同时维持长程信息利用能力,防止误差漂移。实验表明,WorldPlay能以24帧/秒的速率生成720p长序列流式视频,在一致性和泛化性方面均优于现有技术。项目页面与在线演示详见:https://3d-models.hunyuan.tencent.com/world/ 与 https://3d.hunyuan.tencent.com/sceneTo3D。
近期视频生成技术的突破性进展已能制作出与真实视频难以区分的生动内容,这使得AI生成视频检测成为新兴的社会挑战。现有AIGC检测基准大多针对无音频视频进行评估,面向宽泛的叙事领域,且仅聚焦于分类任务。然而,最先进的视频生成模型能否产出具有沉浸感、音画同步且能可靠欺骗人类与视觉语言模型(VLM)的音频配对视频,目前尚不明确。为此,我们推出"视频真实度测试"——一套基于ASMR音视频源的基准测试集,用于在严格音画耦合条件下检验感知真实度,其特色包括:(i)沉浸式ASMR音视频源。基于精心筛选的真实ASMR视频构建,该基准针对细粒度的动作-对象交互,在物体、动作及背景层面实现多样性覆盖。(ii)同行评审机制。采用对抗性创作-评审协议:视频生成模型作为创作者试图欺骗评审者,而VLM则担任识别伪造内容的评审者。实验结果表明:最佳创作者Veo3.1-Fast甚至能欺骗多数VLM——最强评审者(Gemini 2.5-Pro)仅达到56%的识别准确率(随机基准为50%),远低于人类专家水平(81.25%)。音频的加入能提升真假判别能力,但水印等表面线索仍会显著误导模型。这些发现界定了当前视频生成真实度的边界,并揭示了VLM在感知保真度与音画一致性方面的局限。代码已开源:https://github.com/video-reality-test/video-reality-test。
大型语言模型(LLM)的快速发展高度依赖于后训练数据集的质量与多样性。然而一个关键矛盾始终存在:虽然模型经过严格基准测试,但支撑它们的数据却如同黑箱——其构成不透明、来源不明确且缺乏系统性评估。这种不透明性阻碍了研究的可复现性,并模糊了数据特性与模型行为之间的因果关联。为弥补这一鸿沟,我们推出OpenDataArena(ODA),一个旨在评估后训练数据内在价值的全栈开放平台。ODA构建了包含四大支柱的完整生态系统:(一)确保不同模型(如Llama、Qwen)与领域间公平开放对比的统一训练-评估流水线;(二)沿数十个维度剖析数据质量的多维评分框架;(三)可视化数据集谱系、解析组件来源的交互式数据溯源探索器;(四)完全开源的训练、评估与评分工具包以推动数据研究。基于ODA的大规模实验——涵盖多领域120余个训练数据集、22项基准测试,经超600次训练运行和4000万条数据处理验证——揭示了深刻洞见。我们的分析发现了数据复杂度与任务性能间的内在权衡,通过溯源追踪识别出热门基准中的冗余,并绘制了数据集间的谱系关联图。我们公开所有结果、工具与配置以 democratize 高质量数据评估的访问权。ODA并非简单扩展排行榜,而是致力于推动从试错式数据筛选向数据为中心AI的范式转变,为数据混合规律与基础模型战略构成的严谨研究铺平道路。
主题驱动的图像生成已从单主体组合发展到多主体组合,但普遍忽视了区分能力——即在输入包含多个候选主体时准确识别并生成正确主体的能力。这一局限影响了模型在复杂真实视觉场景中的有效性。我们提出Scone,一种统一的理解-生成方法,将组合与区分能力相融合。Scone使理解专家充当语义桥梁,传递语义信息并引导生成专家在保持主体身份的同时最小化干扰。采用两阶段训练方案:先学习组合能力,再通过语义对齐和基于注意力的掩码机制增强区分能力。我们还推出了SconeEval基准,用于评估多样化场景下的组合与区分性能。实验表明,在两项基准测试中,Scone在组合与区分任务上均优于现有开源模型。我们的模型、基准及训练数据已开源:https://github.com/Ryann-Ran/Scone。
空间追踪作为机器人的基础具身交互能力,其实现具有内在挑战性,因为它需要结合复杂空间指代与真实世界度量测量的多步骤度量推理。然而,现有方法难以应对这种组合式任务。为此,我们提出RoboTracer——一种三维感知的视觉语言模型,首次通过统一空间编码器和回归监督解码器,在监督微调阶段同步实现三维空间指代与测量,增强模型的尺度感知能力。此外,RoboTracer通过引入度量敏感的过程奖励进行强化微调,监督关键中间感知线索以精准生成空间轨迹,从而推进多步骤度量推理。为支持监督微调与强化微调训练,我们构建了包含3000万问答对的大规模数据集TraceSpatial,涵盖室外/室内/桌面场景,支持最多9步的复杂推理流程。我们进一步提出填补评估空白的挑战性基准TraceSpatial-Bench。实验结果表明,RoboTracer在空间理解、测量与指代方面均超越基线模型,平均成功率达79.1%,并在TraceSpatial-Bench上以36%的准确率优势大幅超越Gemini-2.5-Pro,实现性能突破。值得注意的是,RoboTracer可适配多种控制策略,在杂乱真实场景中跨机器人平台(UR5、G1人形机器人)执行长周期动态任务。
构建通用推理模型的强化学习(RL)方法面临显著的跨领域异质性挑战,包括推理时响应长度和验证延迟的巨大差异。这种变异性不仅增加了RL基础设施的复杂性、拖慢训练进程,还使得训练课程(如响应长度扩展)和超参数选择变得困难。本文提出级联式领域强化学习(Cascade RL)方法,开发出具备指令模式与深度思考模式的双模通用推理模型Nemotron-Cascade。与传统混合多领域异构提示的方法不同,Cascade RL采用顺序化、分领域的RL训练策略,既降低了工程复杂度,又在广泛基准测试中实现了领先性能。值得注意的是,作为前置步骤的RLHF对齐技术不仅能优化模型偏好,更显著提升了推理能力;后续分领域RLVR阶段几乎不会损害已习得的领域性能,甚至可能进一步提升(图1示例)。经过RL训练的14B参数模型在LiveCodeBench v5/v6/Pro上超越其SFT教师模型DeepSeek-R1-0528,并在2025年国际信息学奥林匹克竞赛(IOI)中达到银牌水平。我们公开分享了完整的训练方案与数据配方。
可缩放矢量图形(SVG)在现代网页设计中占据核心地位,随着网络环境日益动态化,对其动画化的需求持续增长。然而尽管在代码生成与运动规划领域取得了进展,让视觉语言模型(VLM)自动实现矢量图形动画仍面临挑战。由于视觉上连贯的部件常被分割为底层图形单元,无法提供元素运动关联性指引,VLM在处理SVG时频繁出错。本文提出一种框架,通过恢复SVG动画所需的语义结构,揭示当前VLM系统所忽视的关键层级。该框架基于多重弱部件预测的统计聚合,使系统能从嘈杂预测中稳定推断语义信息。通过将SVG重组为语义群组,我们的方法使VLM能生成连贯性显著提升的动画效果。实验结果表明,该方法相较现有技术取得实质性突破,证明语义重建是实现稳健SVG动画的关键步骤,并为VLM与矢量图形之间建立更可解释的交互机制提供支撑。
流式视频生成的核心挑战在于维持长上下文中的内容一致性,这对内存设计提出了极高要求。现有方案大多通过预定义策略压缩历史帧来维护内存,但不同待生成的视频片段需参考不同的历史线索,固定策略难以满足这一需求。本研究提出MemFlow以解决该问题:在生成新片段前,我们通过检索与该片段文本提示最相关的历史帧来动态更新记忆库。该设计即使后续帧出现新事件或场景切换,也能保持叙事连贯性。此外在生成过程中,我们仅激活记忆库中与注意力层各查询最相关的标记,有效保障生成效率。MemFlow由此以可忽略的计算开销(相比无记忆基准仅降低7.9%速度)实现卓越的长上下文一致性,并保持与所有带KV缓存的流式视频生成模型的兼容性。
我们推出Olmo 3系列——包含70亿与320亿参数规模的全开源顶尖语言模型。该系列模型专攻长文本推理、函数调用、代码生成、指令遵循、通用对话及知识检索等能力。本次发布完整呈现模型构建全流程,涵盖模型家族生命周期的每个阶段,包括所有训练检查点、数据节点及构建依赖。作为旗舰产品的Olmo 3 Think 320亿模型,是当前已发布的最强全开源思维模型。
高维向量相似性搜索正迅速成为下一代数据库系统的核心功能,服务于各类数据密集型应用——从大语言模型中的嵌入查询,到语义信息检索与推荐系统。然而现有基准测试主要围绕召回率与延迟的权衡关系展开评估,其真值标准仅依赖于距离度量,未能考量检索质量对下游任务的最终影响。这种脱节可能误导学术研究与产业实践。 我们提出Iceberg——面向实际应用场景的端到端向量相似性搜索方法评估基准套件。基于任务中心视角,Iceberg揭示了"信息损失漏斗"现象,识别出导致端到端性能下降的三大主因:(1) 特征提取过程中的嵌入损失;(2) 距离度量与任务相关性失配的指标误用;(3) 凸显索引鲁棒性不足的数据分布敏感性。为进行全面评估,Iceberg涵盖图像分类、人脸识别、文本检索、推荐系统等关键领域的八个多样化数据集。每个包含100万至1亿向量的数据集均配备丰富的任务专属标签与评估指标,支持在完整应用流程中(而非孤立环境下)评估检索算法。 通过对13种前沿向量搜索方法进行基准测试,并基于应用级指标重新排序,Iceberg发现其与传统仅依赖召回率-延迟的评估排名存在显著差异。基于这些发现,我们定义了一组任务中心元特征,并推导出可解释的决策树,为从业者根据具体工作负载选择与调优向量搜索方法提供指导。
设计有效的奖励函数是强化学习(RL)领域的核心挑战,尤其在为复杂推理任务开发自主智能体时更为艰巨。虽然存在自动化奖励优化方法,但它们通常依赖将奖励函数视为黑箱的无导数进化启发式算法,难以捕捉奖励结构与任务性能之间的因果关系。为弥补这一差距,我们提出可微分进化强化学习(DERL)——一种能够自主发现最优奖励信号的双层框架。在DERL中,元优化器通过组合结构化原子基元来演化奖励函数(即元奖励),从而指导内层策略的训练。与以往进化方法的关键区别在于,DERL在元优化层面实现了可微分性:它将内层验证性能作为信号,通过强化学习更新元优化器。这使得DERL能够近似任务成功的"元梯度",逐步学会生成更密集且更具指导性的反馈。我们在三个领域验证DERL:机器人智能体(ALFWorld)、科学模拟(ScienceWorld)和数学推理(GSM8k、MATH)。实验结果表明,DERL在ALFWorld和ScienceWorld上达到最先进性能,尤其在分布外场景中显著优于依赖启发式奖励的方法。对进化轨迹的分析表明,DERL成功捕捉了任务的内在结构,实现了无需人工干预的自改进智能体对齐。
本文并未提出创新方法,而是为视频时序定位这一视频理解核心能力建立了一个简洁、渐进但至关重要的基准。尽管多模态大语言模型在各类视频理解任务中表现卓越,但针对视频时序定位的优化方案仍待深入探索。本研究提出TimeLens,从数据质量与算法设计两个核心维度系统性地探索构建具备强视频时序定位能力的多模态大语言模型。我们首先揭示了现有视频时序定位基准数据集中的关键质量问题,并推出TimeLens-Bench——包含三个经严格质量标准重新标注的流行基准数据集。分析表明,与传统基准相比,模型评估排名发生显著变化,证实了既往评估标准的不可靠性。同时,我们通过自动化重标注流程处理噪声训练数据,构建了大规模高质量训练数据集TimeLens-100K。基于数据基础,我们深入探索算法设计原则,获得一系列具有启发性的发现及高效实用的方案,包括:用于时间表征的交错文本编码、基于可验证奖励的无思维强化学习训练范式,以及精心设计的强化学习训练方案。这些努力最终凝练为TimeLens模型系列——该开源多模态大语言模型在视频时序定位任务中不仅达到开源模型的最优性能,甚至超越了GPT-5和Gemini-2.5-Flash等专有模型。所有代码、数据与模型将全面公开以推动后续研究。
尽管现有生成模型与统一模型在通用图像生成方面表现出色,但在需要超越常规场景的深度推理、规划能力及精确数据到视觉映射的任务中仍存在不足。为突破现有局限,我们提出一项新颖且具有挑战性的任务:创意表格可视化,要求模型根据给定表格数据生成兼具信息忠实度与视觉美学的信息图。针对这一挑战,我们提出ShowTable框架,通过渐进式自我修正过程实现多模态大语言模型与扩散模型的协同工作。该框架以MLLM作为核心协调器,负责视觉方案推理与视觉误差判定以提供优化指令,扩散模型则执行MLLM的指令以实现高保真度生成。为支持该任务及框架,我们开发了三套自动化数据构建流程用于训练不同模块。此外,我们推出TableVisBench新基准数据集,包含800个涵盖5个评估维度的挑战性实例,用于系统评估任务性能。实验表明,基于不同模型实例化的我们的框架显著超越基线方法,凸显了其有效的多模态推理、生成及纠错能力。
大语言模型(LLMs)在将推荐系统从隐式行为模式匹配转向显式意图推理方面展现出巨大潜力。尽管RecGPT-V1通过融合基于LLM的推理机制,在用户兴趣挖掘和物品标签预测领域成功开创了该范式,但其存在四个根本性局限:(1)多推理路径下的计算低效与认知冗余;(2)固定模板生成中解释多样性的不足;(3)监督学习范式下泛化能力有限;(4)结果导向的单一评估标准难以匹配人类评判基准。 为解决这些挑战,我们提出具备四项关键创新的RecGPT-V2。首先,层级化多智能体系统通过协同合作重构意图推理流程,在消除认知重复的同时实现多样化意图覆盖。结合压缩用户行为上下文的混合表征推理技术,我们的框架降低60%的GPU消耗,并将独占召回率从9.39%提升至10.99%。其次,元提示框架动态生成上下文自适应的提示模板,使解释多样性提升7.3%。第三,约束强化学习缓解多奖励冲突,在标签预测和解释接受度上分别实现24.1%和13.0%的提升。第四,智能体即评判官框架将评估分解为多步推理,显著增强人类偏好对齐能力。淘宝在线A/B测试显示关键指标全面提升:点击率提升2.98%,详情页浏览量提升3.71%,交易额提升2.19%,新体验用户占比提升11.46%。RecGPT-V2从技术可行性与商业价值双重维度验证了LLM驱动的意图推理系统的大规模部署能力,为认知探索与工业应用搭建了桥梁。
扩散语言模型(dLMs)已成为实现并行非自回归生成的潜力范式,但其从头开始训练时的学习效率仍落后于自回归(AR)语言模型。为此,我们研究AR-to-dLM转换方法,将预训练的AR模型转化为高效dLMs,在保持AR模型任务精度的同时实现生成速度的飞跃。通过剖析现有AR-to-dLM方法在注意力机制和训练目标上的局限,我们提出了更有效的转换原则与方法。具体而言:首先系统比较不同注意力模式,发现保持预训练AR权重分布对转换效果至关重要。据此提出基于分块注意力模式的持续预训练方案,在块间保持因果性的同时实现块内双向建模。该方法相比完全双向建模不仅能更好地保留AR模型权重分布,还兼具支持KV缓存的技术优势,实现精度与效率的双赢。其次,为缓解掩码token分布(均匀分布vs强左向右分布)在训练与推理阶段的差异,提出位置相关掩码策略,在训练阶段对后续token赋予更高掩码概率以模拟推理行为。基于该框架,我们深入探究了dLMs的注意力模式、训练动态等设计选择,为可扩展的AR-to-dLM转换提供实践指导。由此诞生的Efficient-DLM模型系列在精度和效率上均超越现有最优模型,例如我们的Efficient-DLM 8B相比Dream 7B和Qwen3 4B分别实现精度提升5.4%/2.7%,吞吐量提高4.5倍/2.7倍。
图像生成3D技术的最新进展为设计、增强现实/虚拟现实(AR/VR)及机器人领域开辟了广阔前景。然而,要将AI生成的3D资源投入实际应用,关键需求在于具备便捷的编辑能力。我们提出一种前馈式方法Steer3D,通过为图像生成3D模型添加文本导向功能,实现用语言编辑生成3D资源的能力。该方法受ControlNet启发,我们将其适配于图像生成3D领域,从而在前向传播中直接实现文本导向。我们构建了可扩展的自动数据生成引擎,并开发了基于流匹配训练与直接偏好优化(DPO)的两阶段训练方案。相较于现有方法,Steer3D在更精准遵循语言指令的同时,能更好地保持与原始3D资源的一致性,且处理速度提升2.4至28.5倍。Steer3D证明仅需10万数据即可为预训练的图像生成3D模型添加新模态(文本)导向能力。项目网站:https://glab-caltech.github.io/steer3d/
我们提出了SS4D,这是一种原生4D生成模型,能够直接从单目视频中合成动态3D物体。与先前通过优化3D或视频生成模型来构建4D表示的方法不同,我们直接在4D数据上训练生成器,实现了高保真度、时间连贯性和结构一致性。我们方法的核心是一组压缩的结构化时空潜变量。具体而言:(1)针对4D训练数据稀缺的问题,我们基于预训练的单图像转3D模型进行构建,保持了强大的空间一致性;(2)通过引入专用于跨帧推理的时间层来强化时间连贯性;(3)为支持长视频序列的高效训练与推理,我们采用因子分解的4D卷积和时间下采样模块沿时间轴压缩潜变量序列。此外,我们采用精心设计的训练策略来增强模型对遮挡的鲁棒性。
大型语言模型(LLMs)的快速扩展虽取得了显著性能突破,但也带来了高昂的内存成本。现有的参数高效方法(如剪枝和量化)主要对预训练模型进行压缩,并未增强架构能力,因而受限于基础模型的表现力上限。本文提出VersatileFFN——一种新型前馈网络,能够在固定参数预算下实现参数在宽度和深度维度上的灵活复用。受认知双过程理论启发,VersatileFFN包含两条自适应路径:宽度自适应路径通过单个共享FFN生成混合子专家,在不增加参数的情况下模拟稀疏专家路由机制;深度自适应路径通过递归应用同一FFN模拟对复杂标记的深层处理。难度感知门控机制动态平衡两条路径,引导"简单"标记通过高效的宽度路径处理,同时为"困难"标记分配深度迭代优化。关键的是,两条路径复用相同参数,所有额外能力均通过计算而非内存扩展实现。跨多基准测试和模型规模的实验验证了该方法的有效性。代码已开源:https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN。
基于语言指令识别物体交互区域的可供性预测,对具身AI至关重要。主流端到端模型将高层推理与低层定位耦合在单一流程中,依赖标注数据集进行训练,导致对新物体和未知环境的泛化能力不足。本文突破该范式,提出A4-Agent——一种免训练智能体框架,将可供性预测解耦为三阶段流程:该框架在测试时协调三个专业基础模型:(1)运用生成模型可视化交互效果的"造梦者";(2)利用视觉语言模型确定交互部位的"思考者";(3)调度视觉基础模型精确定位交互区域的"定位者"。通过无需任务微调即可发挥预训练模型的互补优势,我们的零样本框架在多个基准测试中显著超越最先进的监督方法,并展现出对真实场景的强泛化能力。
上下文学习是现代大语言模型(LLM)的核心能力,然而主流架构通过分配线性或固定的位置索引,强加了僵化的上下文结构。基于认知负荷理论(CLT),我们认为这种缺乏信息量的结构会增加外部认知负荷,消耗本应用于深度推理和注意力分配的有限工作记忆容量。为此,我们提出RePo——一种通过上下文重定位降低外部负荷的新机制。与标准方法不同,RePo采用可微分模块f_φ来分配能捕捉上下文依赖关系的词元位置,而非依赖预定义的整数范围。通过在OLMo-2 1B骨干网络上持续预训练,我们证明RePo在包含噪声上下文、结构化数据和长上下文任务中显著提升性能,同时在通用短上下文任务中保持竞争力。深入分析表明,RePo能成功对远距离相关信息分配更高注意力,在稠密非线性空间中定位位置,并捕捉输入上下文的内在结构。代码已开源:https://github.com/SakanaAI/repo。
掩码离散扩散模型(MD3)在图像理解、生成与编辑等多模态任务中展现出卓越性能,但其推理速度仍受限于每个采样步需重复处理冗余掩码标记的问题。本研究提出Sparse-LaViDa——一种新颖的建模框架,通过动态截断各推理步骤中不必要的掩码标记来加速MD3采样。为保持生成质量,我们引入专用寄存器标记作为被截断标记的紧凑表征。此外,为确保训练与推理的一致性,我们设计了能精准匹配截断采样过程的特殊注意力掩码机制。基于当前最先进的统一MD3框架LaViDa-O构建的Sparse-LaViDa,在文本到图像生成、图像编辑和数学推理等多样化任务中实现了最高2倍的加速,同时保持原有生成质量。
实现真正自适应的具身智能需要智能体不仅通过模仿静态演示来学习,更要通过环境交互持续改进——这类似于人类通过实践掌握技能的方式。视觉-语言-动作模型虽通过利用大语言模型推动了机器人操作的发展,但其本质上仍受监督微调的限制:每个任务需数百次演示、机械记忆轨迹,且当部署条件偏离训练场景时无法适应。我们提出EVOLVE-VLA,一种测试时训练框架,使VLA模型能够通过环境交互持续自适应,仅需极少或无需任务特定演示。核心技术挑战在于用自主反馈替代测试时无法获取的预设奖励信号。我们通过设计进度估计器提供密集反馈来解决该问题,并创新性地通过双重机制“驯服”这一固有噪声信号:(1)累积进度估计机制平滑噪声点估计;(2)渐进式跨度扩展策略实现策略逐步演化。EVOLVE-VLA取得显著提升:长跨度任务提升8.6%,单样本学习提升22.0%,并实现跨任务泛化——在未见过任务上无需任务特定演示训练即可达到20.8%成功率(纯SFT方法为0%)。定性分析揭示了演示中未出现的新兴能力,包括错误恢复与创新策略。这项工作标志着VLA向真正学习与自适应迈出关键一步,从静态模仿走向持续自我改进。
基于视频的定位问答(GVQA)旨在定位视频中相关的时间片段并生成准确答案,但大型视频语言模型(LVLM)的时间感知能力有限。尽管现有基于组相对策略优化(GRPO)的方法尝试改进时序定位,但仍难以将答案忠实锚定于相关视频证据,导致时序错位与幻觉。本文提出Zoom-Zero框架,采用由粗到精的处理流程:先定位查询相关片段,再时序聚焦至最显著帧进行细粒度视觉验证。我们通过两项关键创新突破GRPO在GVQA任务中的局限:(i)聚焦精度奖励机制,验证时序定位预测的忠实度,促进对定位帧的细粒度视觉验证;(ii)基于令牌的选择性信用分配,将奖励归因于负责时序定位或答案生成的令牌,缓解GRPO处理多维度奖励信号的缺陷。所提方法显著推进了视频定位问答技术,在NExT-GQA和ReXTime数据集上分别将时序定位精度提升5.2%和4.6%,同时平均答案准确率提高2.4%。推理过程中的由粗到精聚焦机制还通过保留关键视觉细节而不损失全局上下文,助力长视频理解,在长视频基准测试中实现6.4%的平均提升。
我们提出CRISP方法,该方法能够从单目视频中重建可模拟的人体运动与场景几何。现有的人体-场景联合重建研究要么依赖数据驱动的先验知识和无物理约束的联合优化,要么重建出的几何模型存在噪点与伪影,导致包含场景交互的运动追踪策略失效。与此不同,我们的核心思路是通过对场景点云进行平面图元拟合,利用深度、法向量和光流信息的简单聚类流程,重建出凸面、洁净且可直接用于仿真的几何模型。为还原交互过程中可能被遮挡的场景几何,我们采用人体-场景接触建模技术(例如利用人体姿态重建被遮挡的椅子座面)。最后,通过强化学习驱动人形控制器,我们确保人体与场景重建结果符合物理规律。在以人为中心的视频基准测试(EMDB、PROX)中,本方法将运动追踪失败率从55.2%降至6.9%,同时强化学习仿真吞吐量提升43%。我们进一步在野外视频(包括随手拍摄视频、网络视频乃至Sora生成视频)上验证了该方法,证明CRISP能大规模生成物理有效的人体运动与交互环境,显著推进机器人及AR/VR领域的实景仿真应用。
非参数量化方法因其参数高效性和对大码本的良好扩展性而备受关注。本文通过格编码理论提出了不同非参数量化方法的统一框架。格码的几何特性解释了在训练自编码器时,为何BSQ等现有无查表量化变体需要引入辅助损失项。在此基础上,我们探索了包括随机格、广义斐波那契格以及最密球堆积格在内的多种候选方案。研究发现,基于Leech格的量化方法(命名为球面Leech量化Λ_{24}-SQ)凭借其高对称性和超球面上的均匀分布特性,既能简化训练流程,又能改善重建-压缩的权衡关系。在图像标记化与压缩任务中,该方法在所有指标上均优于当前最佳技术BSQ,同时略微降低比特消耗。这种改进同样适用于最先进的自回归图像生成框架。
医学图像恢复(MedIR)旨在从低质量医学图像中重建高质量图像。当前MedIR研究聚焦于能同时处理多种恢复任务的一体化模型,但由于模态与退化类型存在显著差异,共享模型需重点考量两种关键的任务间关系:任务干扰(同一参数上多任务梯度更新方向冲突)和任务失衡(各任务学习难度差异导致的优化不均衡)。为此,我们提出任务自适应Transformer(TAT),该框架通过两项创新实现动态任务适配:首先引入任务自适应权重生成策略,通过为各任务生成专属权重参数,消除共享参数上的梯度冲突;其次设计任务自适应损失平衡策略,根据任务学习难度动态调整损失权重,防止任务主导或训练不足。大量实验表明,TAT在PET合成、CT去噪和MRI超分辨率三类MedIR任务中,无论是单任务还是一体化设置均达到最先进性能。代码已开源:https://github.com/Yaziwel/TAT。
大规模专家混合模型推理因资源需求高且工作负载动态变化而面临挑战。现有解决方案通常将整个模型作为单一整体部署,对注意力机制和专家模块采用统一的资源配置,忽视了二者的差异化需求,导致可扩展性有限和资源效率低下。本文提出Janus——一种可扩展的MoE推理系统,通过将注意力机制与专家模块解耦部署至独立的GPU子集群,实现各模块的独立管理与弹性扩缩。Janus包含三项关键设计以实现高效解耦推理:首先,提出自适应两阶段通信方案,利用节点内外带宽层级结构实现低延迟数据交换;其次,针对MoE模块的内存瓶颈特性,设计轻量级调度器并以GPU内核形式实现,以最小开销平衡跨GPU的激活专家数量,从而降低推理延迟;最后,实施细粒度资源管理,动态调整专家分布并独立扩缩注意力与专家资源以提升整体效能。实验表明,在满足单令牌延迟要求的前提下,Janus相比现有最优系统可实现单GPU吞吐量最高3.9倍的提升。
基于可验证奖励的强化学习(RLVR)通过利用答案可验证信号指导策略优化,在训练大型推理模型(LRMs)方面已证明有效,但该方法存在标注成本高的问题。为缓解此问题,近期研究探索了仅依靠模型内部一致性(如通过熵和多数投票)生成奖励的无监督RLVR方法。尽管这些方法看似前景可观,但在训练后期常出现模型崩溃现象,这可能是由于缺乏外部监督时错误推理模式被强化所致。本文研究了一种新型半监督RLVR范式,利用少量标注样本指导未标注样本的RLVR训练。我们的核心洞见是:监督奖励对于稳定基于一致性的未标注样本训练至关重要,可确保仅将在标注实例上验证过的推理模式纳入RL训练。技术上,我们提出了有效的策略优化算法TraPO,通过匹配未标注样本与标注样本的学习轨迹相似性来识别可靠样本。基于此,TraPO在六个常用数学推理基准(AIME24/25、AMC、MATH-500、Minerva和Olympiad)和三个分布外任务(ARC-c、GPQA-diamond和MMLU-pro)上实现了显著的数据效率和强大泛化能力。仅使用1K标注样本和3K未标注样本时,TraPO平均准确率达42.6%,超越在45K未标注样本上训练的最佳无监督方法(38.3%)。值得注意的是,当使用4K标注样本和12K未标注样本时,TraPO在所有基准上甚至优于使用全部45K标注样本训练的全监督模型,而标注数据用量仅为其10%。代码已开源:https://github.com/ShenzhiYang2000/TRAPO。
大型语言模型中的安全对齐机制通过习得的拒绝行为阻止对有害查询的响应,但这些机制同样阻碍了包括认知建模、对抗测试与安全分析在内的合法研究应用。虽然消融技术能通过定向正交化手术式移除拒绝表征,但现有实施方案的相对有效性尚未得到系统评估。本研究在16个指令微调模型(70亿-140亿参数)上评估四种消融工具(Heretic、DECCP、ErisForge、FailSpy),报告了所有16个模型的工具兼容性,并根据工具支持范围对子集进行量化指标分析。单次消融方法在基准测试子集上展现出更优的能力保持性(三个模型的GSM8K平均变化:ErisForge -0.28个百分点;DECCP -0.13个百分点),而贝叶斯优化消融则产生可变分布偏移(KL散度0.043-1.646)及模型依赖型能力影响。这些发现为研究人员跨不同模型架构部署消融工具提供了基于证据的选择标准。核心研究表明,数学推理能力对消融干预最为敏感,根据工具选择与模型架构的不同,GSM8K得分变化范围达+1.51至-18.81个百分点(相对变化-26.5%)。
世界模型在提升具身智能体任务性能方面展现出巨大价值。现有研究主要聚焦于像素空间的世界模型,但这些方法在图形用户界面(GUI)场景下面临实际局限——预测未来状态中的复杂视觉元素往往十分困难。本研究探索了GUI智能体世界建模的替代方案:通过自然语言而非原始像素预测来描述状态转换。首先,我们推出MobileWorldBench基准测试,用于评估视觉语言模型(VLM)作为移动GUI智能体世界模型的性能表现。其次,我们发布包含140万样本的大规模数据集MobileWorld,该数据集显著提升了VLM的世界建模能力。最后,我们提出创新框架将VLM世界模型集成至移动智能体的规划系统中,证明语义世界模型可通过提升任务成功率直接赋能移动智能体。相关代码与数据集已开源:https://github.com/jacklishufan/MobileWorld
遥感图像中的建筑物提取因建筑结构复杂多变而成为一项具有挑战性的任务。现有方法虽采用卷积或自注意力模块来捕捉分割模型中的多尺度特征,但特征金字塔的固有间隙及全局-局部特征融合不足导致提取结果存在不精确和模糊性问题。为此,本文提出一种不确定性聚合的全局-局部融合网络(UAGLNet),该网络能够在不确定性建模的指导下有效挖掘高质量的全局-局部视觉语义。具体而言,我们设计了一种新型协同编码器,在不同阶段分别采用混合CNN与Transformer层以捕获局部和全局视觉语义。通过引入中间协同交互模块(CIB),在网络加深时缩小局部与全局特征间的差异。随后提出全局-局部融合(GLF)模块,以互补方式整合全局与局部表征。此外,为降低不确定区域的分割模糊性,我们设计了不确定性聚合解码器(UAD),通过显式估计像素级不确定性来提升分割精度。大量实验表明,本方法性能优于其他先进技术。代码已开源于:https://github.com/Dstate/UAGLNet
现代机器学习的成功依赖于高质量训练数据的获取。在实际应用中,如从公共存储库获取数据或跨机构共享时,数据往往以离散数据集形式存在,其相关性、质量和效用各不相同。因此,如何选择需要搜索有用数据集的存储库或机构,以及确定哪些数据集应纳入模型训练,成为关键决策。然而现有方法大多仅选择单个样本,且将所有数据视为同等相关,忽略了数据集及其来源之间的差异。本研究将数据集选择任务形式化:在资源约束条件下,从大规模异构数据池中选择完整数据集以提升下游性能。我们提出基于层次结构的数据集选择方法DaSH,该方法在数据集和群组(如数据集合、机构)层面分别建模效用,实现有限观测下的高效泛化。在两个公共基准测试(Digit-Five和DomainNet)中,DaSH的准确率较现有最优数据选择基线方法提升最高达26.2%,且所需探索步骤显著减少。消融实验表明DaSH对低资源环境和相关数据集缺失具有强鲁棒性,使其适用于实际多源学习工作流中的可扩展自适应数据集选择。
本文提出JMMMU-Pro——一个基于图像的日本多学科多模态理解基准,以及可扩展的构建方法Vibe Benchmark Construction。遵循从MMMU到MMMU-Pro的演进路径,JMMMU-Pro通过将问题图像与问题文本整合为单一图像,扩展了原有JMMMU基准,构建出需要视觉感知进行图文融合理解的评测体系。为构建JMMMU-Pro,我们提出Vibe Benchmark Construction方法:利用图像生成模型(如Nano Banana Pro)生成候选视觉问题,经人工验证输出结果后,必要时通过调整提示词重新生成以确保质量。借助Nano Banana Pro高真实度的图像生成能力与纯净日文文本嵌入特性,我们以低成本构建了涵盖多样背景与版式设计的高质量基准。实验结果表明,所有开源大语言模型在JMMMU-Pro上均表现不佳,这凸显了该基准对指导开源社区未来发展的重要价值。我们相信JMMMU-Pro为评估大语言模型的日语能力提供了更严谨的工具,同时Vibe Benchmark Construction也为未来开发基于图像的视觉问答基准提供了高效构建指南。
文本到视频(T2V)生成技术发展迅猛,但如何在多场景中保持角色身份一致性仍是关键挑战。现有个性化方法多聚焦于面部特征,却难以维持发型、着装、体态等对视觉连贯性至关重要的广义上下文特征。我们提出ContextAnyone——一种基于上下文感知的扩散框架,通过单张参考图像与文本描述即可实现角色一致的视频生成。该方法通过联合重建参考图像与生成新视频帧,使模型能充分感知并利用参考信息。我们设计了新颖的Emphasize-Attention模块,将参考信息有效整合到DiT扩散主干网络中,该模块能选择性强化参考感知特征并防止跨帧身份漂移。双引导损失函数结合了扩散目标与参考重建目标以增强外观保真度,同时提出的Gap-RoPE位置编码通过分离参考标记与视频标记来稳定时序建模。实验表明,ContextAnyone在身份一致性与视觉质量上均优于现有参考视频生成方法,能在多样化动作与场景中生成连贯且保持上下文特征的角色视频。项目页面:https://github.com/ziyang1106/ContextAnyone。
近年来,无监督视频实例分割领域的最先进技术严重依赖基于以物体为中心的图像数据集(如ImageNet)生成的合成视频数据。然而,通过人为平移和缩放图像实例掩码生成的视频,难以准确模拟真实视频中的运动模式,例如视角变化、单个或多个实例部件的运动、或相机运动。为解决这一问题,我们提出了一种仅使用真实视频数据训练的无监督视频实例分割模型。该方法从单帧视频的无监督实例分割掩码出发,但这些单帧分割结果存在时序噪声且质量参差不齐。为此,我们通过深度运动先验识别视频中的高质量关键掩码,从而建立时序一致性。利用稀疏关键掩码伪标注数据,我们提出结合时序丢弃损失函数的稀疏至稠密蒸馏方法,训练用于隐式掩码传播的分割模型。在生成的稠密标签集上完成最终模型训练后,本方法在多项基准测试中均超越了当前最优性能。
生成式人工智能在教育领域的快速融合正推动电子教学的数字化转型,但用户对AI教育应用的认知仍待深入探索。本研究通过对Google Play商店头部AI教育应用的用户评论进行情感分析,评估其效能、挑战及教学意义。研究流程包括采集应用数据与评论、使用RoBERTa进行二元情感分类、GPT-4o提取关键观点、GPT-5综合正负面主题。应用被划分为七类(如作业助手、数学解题工具、语言学习应用),多功能设计导致类型存在交叉。结果显示用户情感以积极为主,其中作业类应用(如Edu AI积极率95.9%、Answer.AI达92.7%)在准确性、响应速度与个性化方面领先,而语言/LMS类应用(如Teacher AI积极率仅21.8%)因系统不稳定和功能局限表现不佳。积极评价聚焦于头脑风暴、问题解决和互动参与的高效性;负面反馈则集中于付费墙、答案错误、广告干扰及技术故障。趋势表明作业助手类应用优于专业化工具,凸显AI在促进教育普惠性的同时存在依赖性与公平性风险。讨论提出未来应发展人机协同教学模式、结合VR/AR实现沉浸式学习,并为开发者(自适应个性化)和政策制定者(保障包容性的盈利机制监管)提供路线图。这印证了生成式AI通过伦理优化推动公平创新环境,进而促进电子教学发展的关键作用。完整数据集详见:https://github.com/erfan-nourbakhsh/GenAI-EdSent
本文提出一个大规模多模态参照运动表达视频分割数据集,专注于根据物体运动语言描述实现视频中目标物体的分割与追踪。现有参照视频分割数据集通常聚焦显著物体,且使用富含静态属性的语言表达,可能导致目标物体在单帧中即可被识别。此类数据集对视频与语言中运动要素的重视不足。为探索利用运动表达与运动推理线索实现像素级视频理解的可行性,我们推出MeViS数据集,包含33,072条人工标注的文本与音频运动表达,涵盖2,006个复杂场景视频中8,171个物体。我们在MeViS支持的4项任务上对15种现有方法进行基准测试,包括6种参照视频目标分割方法、3种音频引导视频目标分割方法、2种参照多目标追踪方法,以及针对新提出的参照运动表达生成任务的4种视频描述方法。实验结果揭示了现有方法在处理运动表达引导视频理解时的缺陷与局限。我们进一步分析挑战并提出LMPM++方法,在参照视频目标分割/音频引导视频目标分割/参照多目标追踪任务上取得最新最优效果。本数据集为复杂视频场景中运动表达引导视频理解算法的开发提供了平台。MeViS数据集与相关源代码已公开于https://henghuiding.com/MeViS/。
大规模视觉语言模型(VLMs)在复杂推理任务中展现出卓越能力,但在视觉序列规划领域——即执行多步动作以实现目标——的研究仍处于空白状态。此外,实际序列规划常包含非最优(错误)步骤,这对模型检测与修正此类步骤的能力提出挑战。我们提出纠错式序列规划基准(CoSPlan),通过在迷宫导航、积木重组、图像重建和物体重排4个领域评估VLMs在容错型视觉序列规划任务中的表现。该基准重点考察两项核心能力:错误检测(识别非最优动作)与步骤补全(修正并完善动作序列以达成目标)。尽管采用思维链和场景图等前沿推理技术,主流VLM模型(如Intern-VLM与Qwen2)在CoSPlan中表现不佳,难以利用上下文线索达成目标。为此,我们提出无需训练的创新方法——场景图增量更新(SGI),通过在初始状态与目标状态间引入中间推理步骤,帮助VLMs进行序列推理,实现平均5.2%的性能提升。SGI不仅能增强纠错式序列规划的可靠性,还可泛化至Plan-Bench和视觉问答等传统规划任务。