每日精选AI研究论文及翻译
以自我为中心的感知使人类能够从自身视角直接体验和理解世界。将外中心(第三人称)视频转换为自我中心(第一人称)视频为沉浸式理解开辟了新途径,但由于极端相机位姿变化和最小视角重叠,该任务仍极具挑战性。这项任务需要在保持几何一致性的前提下,忠实保留可见内容并合成未观测区域。为此,我们提出EgoX——一种从单段外中心输入生成自我中心视频的创新框架。EgoX通过轻量级LoRA适配器利用大规模视频扩散模型的预训练时空知识,并采用宽度与通道维度拼接的统一条件策略,融合外中心与自我中心先验信息。此外,几何引导的自注意力机制能选择性关注空间相关区域,确保几何连贯性与高视觉保真度。我们的方法在实现连贯逼真的自我中心视频生成的同时,对未见过的真实场景视频展现出强大的可扩展性和鲁棒性。
在口腔医疗自动化领域,多模态数据的可靠解读至关重要,然而当前的多模态大语言模型(MLLMs)难以捕捉细粒度的口腔视觉细节,且缺乏精准诊断所需的充分推理能力。为突破这些局限,我们提出DentalGPT——通过高质量领域知识注入与强化学习开发的专科口腔MLLM。具体而言,我们整合了逾12万张标注口腔图像及其突出诊断相关视觉特征的详细描述,构建了迄今规模最大的口腔多模态标注数据集,这也是当前涵盖口腔图像最全面的多模态数据集。基于该数据集的训练显著增强了MLLM对口腔病征的视觉理解能力,而后续的强化学习阶段进一步强化了其多模态复杂推理能力。在口内影像与全景片基准测试及医学VQA基准的口腔子集上的综合评估表明,DentalGPT在疾病分类和口腔VQA任务中均实现卓越性能,仅凭70亿参数即超越众多先进MLLMs。这些结果证明,高质量口腔数据与分阶段适配策略相结合,为构建高效能的专科口腔MLLMs提供了有效路径。
基于视觉基础模型(VFM)表征的视觉生成为融合视觉理解、感知与生成提供了一条极具前景的统一路径。尽管潜力巨大,但在VFM表征空间内完整训练大规模文生图扩散模型的研究仍属空白。为填补这一空白,我们扩展了SVG(自监督视觉生成表征)框架,提出SVG-T2I以直接在VFM特征域实现高质量文生图合成。通过采用标准文生图扩散流程,SVG-T2I取得了具有竞争力的性能:在GenEval上达到0.75分,在DPG-Bench上获得85.78分。这一性能验证了VFM在生成任务中固有的表征能力。我们已将项目完全开源,包括自动编码器与生成模型,及其训练、推理、评估流程与预训练权重,以推动表征驱动视觉生成的进一步研究。
大规模视频生成模型在模拟真实场景的光照交互与外观细节方面展现出巨大潜力。然而,能够同时理解场景本征属性(如反照率、法线、材质和辐照度)、基于这些属性进行视频合成,并支持可编辑本征表征的闭环框架仍属空白。我们提出V-RGBX——首个面向本征感知视频编辑的端到端框架。该框架集成了三大核心能力:(1)将视频逆向渲染为本征通道;(2)基于本征表征进行逼真视频合成;(3)支持以本征通道为条件的关键帧视频编辑。V-RGBX的核心在于交错式条件控制机制,通过用户选择的关键帧实现符合物理规律的直观视频编辑,支持对任意本征模态的灵活操控。大量定性与定量结果表明,V-RGBX能生成时序一致、逼真度高的视频,并以符合物理规律的方式将关键帧编辑效果传播至整个序列。我们在物体外观编辑、场景级重光照等多样化应用中验证了其有效性,其性能显著超越了现有方法。
当前基于扩散模型的肖像动画技术主要聚焦于提升视觉质量与表情真实感,却普遍忽视了生成延迟与实时性能,这限制了其在直播场景中的应用范围。我们提出PersonaLive——一种基于扩散模型的新型框架,通过多阶段训练方案实现流式实时肖像动画。具体而言,我们首先采用混合隐式信号(即隐式面部表征与3D隐式关键点)来实现富有表现力的图像级运动控制。随后提出一种少步数外观蒸馏策略,通过消除去噪过程中的外观冗余大幅提升推理效率。最后,我们引入配备滑动训练策略和历史关键帧机制的自回归微片段流式生成范式,以实现低延迟且稳定的长时序视频生成。大量实验表明,PersonaLive在达到领先性能的同时,相比现有扩散式肖像动画模型实现了7-22倍的加速效果。
基于Transformer的大语言模型(LLM)中的自注意力机制会随输入长度呈二次方增长,导致长上下文推理成本高昂。滑动窗口注意力(SWA)可将计算复杂度降至线性,但若对全注意力(FA)预训练的模型在推理时直接启用完整SWA,会因训练-推理失配引发长上下文性能严重退化。这引发我们思考:FA预训练的LLM能否在不重新预训练的情况下良好适配SWA?我们通过提出滑动窗口注意力适配(SWAA)方案展开研究,该方案融合五种优化方法实现更好适配:(1)仅在预填充阶段应用SWA;(2)保留"沉淀"标记;(3)交错排列FA/SWA层;(4)思维链(CoT)技术;(5)微调调优。实验表明SWA适配具有可行性但非易事:单一方法均不足够,而特定协同组合能有效恢复原始长上下文性能。我们进一步分析不同SWAA配置的性能-效率权衡关系,并为多样化场景提供推荐方案。代码已开源:https://github.com/yuyijiong/sliding-window-attention-adaptation
多模态学习通过以强大大型语言模型(LLM)作为认知核心的多模态大语言模型(MLLM),迅速推动了视觉理解的发展。然而在视觉生成领域,这些核心模型通常被降级为扩散模型的全局文本编码器,其大部分推理与规划能力未被充分利用。这造成了当前困境:多模态大语言模型能够解析复杂布局、属性及知识密集型场景,却难以生成具有同等精确结构化控制的图像或视频。我们提出MetaCanvas——一个轻量级框架,使MLLM能够直接在空间与时空潜在空间中进行推理规划,并与扩散生成器紧密交互。我们在三种扩散模型骨干上实证实现了MetaCanvas,并在六大任务中进行评估,包括文本到图像生成、文本/图像到视频生成、图像/视频编辑以及上下文视频生成,每个任务都需要精确布局、强健属性绑定和推理密集型控制。MetaCanvas始终优于全局条件基线方法,表明将MLLM视为潜在空间规划器是缩小多模态理解与生成之间差距的有效路径。
基于图元的溅射方法(如3D高斯溅射)通过实时渲染技术彻底革新了新视角合成领域。然而,这些基于点的表征仍无法兼容驱动AR/VR和游戏引擎的网格化流程。我们提出MeshSplatting——一种基于网格的重建方法,通过可微分渲染联合优化几何结构与外观表现。该方法通过受限Delaunay三角剖分强制保持连通性,并优化表面一致性,从而创建端到端平滑、视觉高质量的网格,可在实时3D引擎中高效渲染。在Mip-NeRF360数据集上,该方法将基于网格的新视角合成当前最优方法MiLo的PSNR指标提升了0.69 dB,同时训练速度加快2倍、内存占用减少一半,成功弥合了神经渲染与交互式3D图形之间的鸿沟,实现无缝实时场景交互。项目页面详见:https://meshsplatting.github.io/。
现实是刚性约束与可变形结构之间的共舞。对视频模型而言,这意味着生成既保持保真度又维持结构的运动。尽管扩散模型取得进展,但生成逼真的结构保持运动仍具挑战性,尤其对于人类和动物等铰接式可变形物体。迄今为止,仅靠扩大训练数据仍无法解决物理上不合理的过渡问题。现有方法依赖于带有噪声的运动表征作为条件输入,例如通过外部不完美模型提取的光流或骨骼数据。为应对这些挑战,我们提出一种算法,将自回归视频跟踪模型(SAM2)中的结构保持运动先验知识蒸馏至双向视频扩散模型(CogVideoX)。基于该方法,我们训练出SAM2VideoX模型,其包含两大创新:(1)双向特征融合模块,可从SAM2等循环模型中提取全局结构保持运动先验;(2)局部格拉姆流损失函数,用于对齐局部特征的协同运动。在VBench基准测试和人类评估中,SAM2VideoX相较现有基线模型实现稳定提升(VBench得分+2.60%,FVD降低21-22%,人类偏好率达71.4%)。具体而言,在VBench上我们取得95.51%的得分,以2.60%优势超越REPA(92.91%),并将FVD降至360.57,较REPA和LoRA微调方法分别提升21.20%和22.46%。项目网站详见https://sam2videox.github.io/。
我们提出LEO-RobotAgent——一种面向机器人的通用语言驱动智能体框架。该框架可使大语言模型操作不同类型机器人,在多样化场景中完成不可预知的复杂任务,具有强泛化性、鲁棒性和高效性特点。围绕该框架构建的应用级系统能全面增强双向人机意图理解,降低人机交互门槛。在机器人任务规划方面,现有研究大多聚焦大模型在单任务场景和单一机器人类型中的应用,这些算法往往结构复杂且缺乏普适性。因此,我们设计的LEO-RobotAgent框架尽可能采用精简结构,使大模型能在清晰框架内自主思考、规划与执行。我们提供模块化且易于注册的工具集,允许大模型灵活调用各类工具以满足不同需求。同时框架引入人机交互机制,使算法能像合作伙伴般与人类协同工作。实验验证表明,该框架可轻松适配包括无人机、机械臂和轮式机器人在内的主流机器人平台,并能高效执行多种精心设计的不同复杂度任务。代码已开源:https://github.com/LegendLeoChen/LEO-RobotAgent。
现代大语言模型预训练消耗巨大的计算资源和训练数据,使得不同模型的缩放行为(即缩放定律)成为关键区分因素。离散扩散语言模型作为自回归语言模型的替代方案被提出,但其缩放特性尚未得到充分探索——先前研究表明DLMs需要更多数据和计算才能达到ALMs的性能水平。 我们通过平滑插值掩码扩散与均匀扩散,并重点关注批次大小和学习率等关键超参数,系统研究了不同噪声类型下DLMs的缩放行为。实验表明:DLMs的缩放特性强烈依赖于噪声类型,且与ALMs存在显著差异。虽然所有噪声类型在计算受限的缩放场景下最终会收敛至相近的损失值,但发现均匀扩散相比掩码扩散在计算效率优化训练中需要更多参数和更少数据,这使其在数据受限场景中具有显著优势。我们将均匀扩散模型扩展至100亿参数规模,训练计算量达10^22 FLOPs,不仅验证了预测的缩放规律,还创造了目前公开已知的最大规模均匀扩散模型。
我们提出SHARP方法,能够实现单张图像的光真实感视图合成。该方法仅需输入单张照片,即可通过神经网络单次前向传播,在标准GPU上以不足一秒的速度回归出场景的3D高斯表示参数。SHARP生成的3D高斯表示可实时渲染,为邻近视角生成高分辨率的光真实感图像。该表示具备绝对尺度的度量特性,支持精确的相机位姿变换。实验结果表明,SHARP在不同数据集上均展现出强大的零样本泛化能力。在多个基准测试中,该方法相较现有最优模型将LPIPS指标降低25-34%,DISTS指标降低21-43%,同时将合成时间缩短三个数量级,确立了新的技术标杆。代码与权重已开源:https://github.com/apple/ml-sharp
大型语言模型(LLM)虽已引发人工智能革命,但其巨大的内存与计算需求迫使人们采用激进量化策略,使表征日益逼近单比特的理论极限。相较于实值模型,复数值LLM(如iFairy)在低比特表征方面更具优势,但此类模型需从头训练,无法利用预训练实值基础模型的庞大生态。本文提出Fairy2i通用框架,通过将预训练实值层转换为等效的广义线性复数形式,在复用现有模型参数的同时实现极低比特量化。通过证明实数映射与广义线性映射间的无损数学等价性,我们将标准Transformer转换至复数域,并采用基于四次单位根高效码本的相位感知量化方案。此外,我们引入递归残差量化机制,通过迭代最小化量化误差,实现无需乘法运算的高效累加推理。实验表明,Fairy2i使LLaMA-2 7B模型在等效2比特精度下恢复至接近全精度基线的性能,显著优于当前最先进的实值二值化与三值量化方法。该研究弥合了复数值算术的表征效率与预训练模型实用价值之间的鸿沟,为商用硬件上的高效推理开辟了新路径。
LLM即法官评估已成为扩展模型评估的事实标准,但该方法在统计学上存在缺陷:未经校准的分数可能导致偏好倒置,基于未校准分数的朴素置信区间覆盖率接近零,而重要性加权估计量在有限重叠条件下会失效——尽管有效样本量(ESS)很高。我们提出因果法官评估(CJE)框架,可同时解决这三类问题。在n=4,961条经过筛选的Chatbot Arena提示词(从5k条中过滤)上,CJE通过仅使用5%的黄金标准标签(约250条)校准成本低16倍的评判模型,以降低14倍的成本(针对5项策略的排序)实现了全样本量下99%的成对排序准确率(各配置平均94%),达到黄金标准质量。CJE包含三个核心组件:(i)AutoCal-R:通过保均值等渗回归实现奖励校准;(ii)SIMCal-W:通过S单调候选模型堆叠实现权重稳定;(iii)黄金标准不确定性感知(OUA)推断,将校准不确定性传递至置信区间。我们形式化覆盖受限效率(CLE)诊断指标,揭示为何IPS类估计量在ESS超过90%时仍会失效:记录器极少访问目标策略集中的区域。关键发现:由于权重不稳定性,SNIPS即使在奖励校准后仍出现排序倒置(38%成对错误率,肯德尔tau为负);经权重稳定后的校准IPS准确率仍接近随机水平(47%),与CLE诊断一致;OUA将覆盖率从近零提升至约86%(直接法)和约96%(堆叠双重稳健法),而朴素区间存在严重覆盖不足。
我们提出Particulate方法——一种前馈式解决方案,能够基于日常物体的单个静态三维网格,直接推断底层关节结构的所有属性,包括三维部件、运动学结构和运动约束。该方案的核心是部件关节变换器(Part Articulation Transformer),通过灵活可扩展的架构处理输入网格的点云数据,原生支持多关节预测并输出全部目标属性。我们使用公共数据集中的多样化关节化三维资产对网络进行端到端训练。在推理阶段,Particulate将网络的前馈预测结果映射至输入网格,数秒内即可生成完整的关节化三维模型,其速度远优于需要逐对象优化的现有方法。该方法还能精准推断AI生成三维资产的关节结构,当与现成的图像转三维生成器结合时,可实现从单张(真实或合成)图像中完整提取关节化三维物体。我们还基于高质量公共三维资产构建了全新的关节估计挑战性基准测试,并重新设计了更符合人类偏好的评估方案。定量与定性结果表明,Particulate在性能上显著超越现有前沿方法。
立体基础模型虽能实现强大的零样本泛化能力,但其计算复杂度仍难以满足实时应用需求。而高效立体架构往往以牺牲鲁棒性换取速度,且需针对不同领域进行昂贵的微调。为弥合这一差距,我们提出Fast-FoundationStereo系列架构,首次在实时帧率下实现强零样本泛化。我们采用分治加速策略,包含三个核心组件:(1)通过知识蒸馏将混合主干网络压缩为单一高效学生模型;(2)采用分块神经架构搜索自动发现时延预算下的最优代价滤波设计,将搜索复杂度指数级降低;(3)通过结构化剪枝消除迭代优化模块中的冗余。此外,我们构建了自动伪标注流程,从真实场景中筛选140万组立体图像对以补充合成训练数据,促进知识蒸馏。最终模型在保持与FoundationStereo相近零样本精度的同时,运行速度提升超10倍,由此确立实时立体方法的新标杆。项目页面:https://nvlabs.github.io/Fast-FoundationStereo/
我们提出的视动策略在2025年BEHAVIOR挑战赛中荣获冠军——该大规模基准测试包含50项多样化的长周期家庭任务,在逼真模拟环境中要求双手操作、导航和情境感知决策能力。基于Pi0.5架构,我们引入多项创新:核心贡献是提出用于流匹配的关联噪声技术,既提升训练效率,又能通过关联感知修复生成流畅动作序列;同时采用可学习混合层注意力机制与系统二阶段追踪来解决任务歧义。训练阶段使用多样本流匹配降低方差,推理阶段则采用动作压缩和针对挑战赛的修正规则。该方法在公开与私有排行榜的50项任务中均取得26%的综合q分数。
将语言模型(LM)集成至医疗系统,对改善医疗工作流程和临床决策具有重大前景。然而,其在实际应用中的关键障碍在于缺乏可信度的可靠评估,尤其是在多语言医疗场景中。现有语言模型主要基于高资源语言训练,难以应对中低资源语言医疗查询的复杂性与多样性,这在以语言多样性为关键特征的全球医疗部署中构成重大挑战。本文提出CLINIC——一个用于评估医疗领域语言模型可信度的综合性多语言基准。该基准通过18项多样化任务,系统化测评模型在五大可信度维度(真实性、公平性、安全性、鲁棒性及隐私性)的表现,涵盖15种语言(遍及所有大洲)以及疾病状况、预防措施、诊断检测、治疗方案、手术操作和药物治疗等关键医疗主题。大规模评估表明,语言模型存在事实准确性不足、对人口统计学及语言群体表现偏见、易受隐私泄露与对抗攻击等问题。通过揭示这些缺陷,CLINIC为提升语言模型在全球多语言医疗场景中的普及度与安全性奠定了基础。
人类能够凭直觉并行处理复杂活动,但模型能否通过观察单个人的行为来学习这种能力?基于单个第一视角视频,我们提出N体问题:假设有N个个体,如何协同完成视频中观察到的同一组任务。该问题的目标在于最大化加速比,但简单地将视频片段分配给不同个体往往会违反现实约束,导致物理上不可行的场景(如两人同时使用同一物体或占据同一空间)。为此,我们正式定义了N体问题,并提出一套评估指标,兼顾性能(加速比、任务覆盖率)与可行性(空间碰撞、物体冲突及因果约束)。进而设计了一种结构化提示策略,引导视觉语言模型(VLM)对三维环境、物体使用和时序依赖进行推理,以生成可行的并行执行方案。在EPIC-Kitchens和HD-EPIC的100个视频测试中,当N=2时,我们的方法相较于Gemini 2.5 Pro的基线提示,动作覆盖率提升45%,同时将碰撞率、物体冲突和因果冲突分别降低55%、45%和55%。
不确定性估计对于医学图像分割系统的安全临床部署至关重要,它能够识别不可靠的预测并支持人工监督。尽管现有研究主要集中于像素级不确定性,但基于解剖标志点的分割方法虽具有固有拓扑保证,其不确定性研究仍处于探索不足的状态。本研究针对胸部X光影像的解剖标志点分割开展不确定性估计研究。受结合标准图像卷积编码器与基于图结构的生成式解码器的混合神经网络架构启发,我们利用其变分潜空间推导出两种互补的度量指标:(i)潜空间不确定性,直接从学习得到的分布参数中捕获;(ii)预测不确定性,通过从潜空间样本生成多个随机输出来获得。通过受控数据破坏实验表明,两种不确定性度量均随扰动强度增加而上升,能同步反映全局和局部图像退化。通过与人工标注金标准对比,我们验证了这些不确定性信号可有效识别不可靠预测,并在CheXmask数据集上支持分布外检测。更重要的是,我们发布了CheXmask-U大规模数据集(huggingface.co/datasets/mcosarinsky/CheXmask-U),包含657,566例胸部X光标志点分割结果及每个节点的不确定性估计,使研究人员在使用这些解剖掩模时能考量分割质量的空间差异性。我们的研究确立了不确定性估计作为增强胸部X光解剖标志点分割方法鲁棒性与安全部署的重要方向。该方法的完整交互演示见huggingface.co/spaces/matiasky/CheXmask-U,源代码发布于github.com/mcosarinsky/CheXmask-U。
分析大规模文本语料库是机器学习领域的核心挑战,这对识别训练数据中的不良模型行为或偏见等任务至关重要。当前方法通常依赖成本高昂的基于大语言模型的技术(如标注数据集差异)或稠密嵌入模型(如用于聚类),这些方法难以针对特定属性进行控制。我们提出使用稀疏自编码器生成SAE嵌入表征:其维度可映射到可解释的概念。通过四项数据分析任务,我们证明SAE嵌入相较于大语言模型更具成本效益和可靠性,相比稠密嵌入则具有更好的可控性。利用SAE庞大的假设空间,我们能够揭示如下发现:(1)数据集间的语义差异;(2)文档中意外的概念关联。例如通过对比模型响应,我们发现Grok-4比其他九款前沿模型更频繁地澄清歧义。相较于大语言模型,SAE嵌入能以2-8倍的低成本揭示更显著的差异,并更可靠地识别偏见。此外,SAE嵌入具有可控性:通过概念过滤可实现(3)沿目标维度进行文档聚类,并(4)在基于属性的检索任务中超越稠密嵌入效果。借助SAE嵌入,我们通过两个案例研究模型行为:探究OpenAI模型随时间的演变规律,以及发现Tulu-3(Lambert等,2024)从训练数据中学到的"触发"短语。这些成果确立了SAE作为非结构化数据分析多面手的地位,并凸显了通过数据解读模型这一被忽视的重要维度。