每日精选AI研究论文及翻译
现有基于扩散模型的视频生成方法受限于序列计算和长序列不一致性,难以实现实时流式音频驱动虚拟人生成。我们提出Live Avatar算法-系统协同设计框架,通过140亿参数扩散模型实现高效、高保真、无限时长的虚拟人生成。该方法创新性地引入时间步强制流水线并行(TPP)技术,将去噪步骤分布式部署于多GPU间,有效突破自回归瓶颈,确保稳定低延迟的实时流式生成。为增强时序一致性并缓解身份漂移与色彩失真,我们提出滚动锚定帧机制(RSFM),通过动态校准缓存参考图像的外观特征来保持序列保真度。此外,采用自强制分布匹配蒸馏技术,在保持视觉质量的前提下实现大规模模型的可流式因果适配。Live Avatar在5张H800 GPU上达到端到端20帧/秒的生成速度,据我们所知,这是首个实现实用级实时高保真虚拟人生成的大规模方案。本研究为工业级长视频合成应用中部署先进扩散模型建立了新范式。
现实世界中的企业数据智能工作流涵盖两大环节:数据工程将原始数据源转化为可供分析的数据表,数据分析则将这些表格转化为决策导向的洞察。我们推出DAComp基准测试,包含210个任务以模拟此类复杂工作流。数据工程类任务要求对工业级数据模式进行仓库级工程实践,包括从零设计构建多阶段SQL流水线,以及在需求演进时对现有系统进行迭代优化。数据分析类任务则提出开放式商业问题,需要执行战略规划、通过迭代编码进行探索性分析、解读中间结果,并最终形成可落地的建议方案。工程类任务采用基于执行的多维度评估体系,开放式任务则由经过实验验证的可靠LLM评判器进行评定,该评判器遵循精心设计的层次化评分标准。实验表明,即使最先进的智能体在DAComp上也表现不佳。数据工程任务成功率尤其低下(不足20%),暴露出整体流水线编排能力存在关键瓶颈,而不仅仅是代码生成问题。数据分析任务平均得分也低于40%,凸显了开放式推理能力的严重不足,印证了工程与分析属于两种独立能力。通过精准诊断这些局限性,DAComp为驱动开发真正适用于企业环境的自主数据智能体提供了严谨而真实的测试平台。我们的数据与代码已开源:https://da-comp.github.io
大型语言模型从被动响应者向自主智能体的演进,亟需学习范式的根本性转变——从静态模仿转向激励机制驱动的决策过程。然而,由于缺乏能够构建高质量交互信号以实现有效策略学习的可扩展基础设施,这一转变受到严重制约。为此,我们提出一套系统性扩展交互环境多样性与复杂度的综合方案。该方案通过三个正交维度实现规模化构建:(1)复杂度:NexAU灵活智能体框架支持通过简易配置构建复杂智能体层级;(2)多样性:NexA4A从自然语言自动生成多样化智能体层级以覆盖无限领域;(3)保真度:NexGAP通过集成动态现实环境实现具身轨迹合成,弥合模拟与现实的鸿沟。基于我们基础设施构建的多样化复杂交互环境,我们训练出Nex-N1模型。在SWE-bench和tau2等基准测试中的实证结果表明,Nex-N1在复杂智能体任务上持续超越开源SOTA模型,并与前沿专有模型展现出竞争性表现。我们开源Nex生态系统及模型权重以促进后续研究。
大型语言模型正日益融入学术写作流程,但现有助手始终独立于编辑器之外,无法深度交互文档状态、结构与修订历史。这种隔离导致无法在Overleaf等LaTeX编辑器内直接支持具有自主性与上下文感知能力的操作。我们推出PaperDebugger——一款内嵌于编辑器、基于多智能体与插件架构的学术写作助手,将LLM驱动的推理能力直接引入写作环境。实现此类编辑器内交互存在显著技术挑战:需要可靠的编辑器双向同步、细粒度版本控制与补丁管理、安全状态维护、多智能体调度,以及与外部工具的可扩展通信。PaperDebugger通过Chrome官方认证的扩展程序、Kubernetes原生编排层,以及集成文献检索、参考文献查找、文档评分与修订流水线的模型上下文协议(MCP)工具链应对这些挑战。我们的演示展现了一套完全集成的工作流,包括局部化编辑、结构化审阅、并行智能体执行与基于差异对比的更新,所有功能均封装在低干扰用户界面中。早期聚合数据分析显示用户活跃参与度高,验证了编辑器原生型智能写作助手的实用性。更多演示详情与视频请访问:https://github.com/PaperDebugger/PaperDebugger。
奖励模型对于使视觉-语言系统与人类偏好对齐至关重要,然而现有方法存在幻觉问题、视觉基础薄弱且无法利用工具进行验证,限制了其在复杂多模态推理任务中的可靠性。我们提出ARM-Thinker——一种能自主调用外部工具(如图像裁剪、文档页面检索)的智能多模态奖励模型,通过可验证证据支撑判断,取代静态非交互式奖励评分。该模型能够验证细粒度视觉细节、交叉引用多页证据并检验推理主张,这些能力是现有奖励模型所缺失的。我们采用多阶段强化学习训练ARM-Thinker,联合优化工具调用决策与判断准确性。为评估智能奖励建模,我们推出ARMBench-VL基准套件,包含三个测试集:评估细粒度视觉基础(图像级工具)、多页文档理解(检索工具)和指令遵循(文本级验证)。ARM-Thinker在奖励模型基准上实现平均16.2%的性能提升,在工具使用任务中提升9.6%,并在多模态数学与逻辑推理基准上超越基线方法。实验结果表明,智能能力显著提升了奖励模型的准确性与可解释性。
潜在扩散模型(LDMS)本质上遵循由粗到细的生成过程,其中高层语义结构的生成略早于细粒度纹理。这表明先行的语义可通过提供语义锚点来促进纹理生成。近期研究通过整合预训练视觉编码器的语义先验来增强LDMS,但仍同步对语义与VAE编码的纹理进行去噪,忽视了这种时序差异。基于此,我们提出语义优先扩散(SFD),一种显式优先构建语义的潜在扩散范式。SFD首先通过专用语义VAE从预训练视觉编码器提取紧凑语义潜在表示,将其与纹理潜在表示组合成复合潜在表示。SFD的核心在于采用分离的噪声调度异步去噪语义与纹理潜在表示:语义通过时间偏移先于纹理生成,为纹理优化提供更清晰的高层指导,实现自然的由粗到细生成。在ImageNet 256x256引导生成任务中,SFD实现了FID 1.06(LightningDiT-XL)和FID 1.04(1.0B LightningDiT-XXL),同时收敛速度比原始DiT提升高达100倍。SFD还能改进ReDi、VA-VAE等现有方法,证明了异步语义主导建模的有效性。项目页面与代码:https://yuemingpan.github.io/SFD.github.io/。
高效流式视频生成对于模拟交互式动态世界至关重要。现有方法通过滑动窗口注意力机制蒸馏少步数视频扩散模型,将初始帧作为锚定标记以维持注意力性能并减少误差累积。然而视频帧会过度依赖这些静态标记,导致复制初始帧并削弱运动动态。为此,我们提出奖励驱动框架(Reward Forcing),包含两项核心设计。首先,我们提出EMA-Sink机制,该机制维护由初始帧初始化的固定尺寸标记,并通过指数移动平均融合滑出窗口的淘汰标记进行持续更新。在不增加计算成本的前提下,EMA-Sink标记既能捕捉长期上下文又能保留近期动态,在保持长时序一致性的同时避免初始帧复制。其次,为更好地从教师模型蒸馏运动动态,我们提出奖励驱动的分布匹配蒸馏(Re-DMD)。传统分布匹配平等对待所有训练样本,限制了模型优先处理动态内容的能力。而Re-DMD通过视觉语言模型对动态性评分,优先处理高动态样本,使模型输出分布偏向高奖励区域。该方法在保持数据保真度的同时显著提升运动质量。定量与定性实验表明,奖励驱动框架在标准基准测试中达到最优性能,并在单张H100 GPU上实现23.1 FPS的高质量流式视频生成。
理解动态物理世界——这一以不断演化的三维结构、真实世界运动及带文本描述的语义内容为特征的对象,对于人机交互至关重要,并能赋予具身智能体在真实环境中以类人能力进行感知与行动。然而,现有数据集多源于受限模拟器或采用传统运动恢复结构方法进行等比例标注,且描述性标注有限,这制约了基础模型从网络常见的单目视频中准确解析真实世界动态的能力。为弥补这些不足,我们推出DynamicVerse:一个面向动态真实世界视频的物理尺度多模态四维世界建模框架。该框架运用大规模视觉、几何与多模态模型解析公制尺度的静态几何、真实世界动态运动、实例级掩码及整体描述性标注。通过将基于窗口的集束调整与全局优化相结合,我们的方法可将长时真实世界视频序列转化为综合性的四维多模态格式。DynamicVerse提供的大规模数据集包含来自网络视频的10万+段视频、80万+标注掩码及1000万+帧图像。在视频深度估计、相机位姿估计和相机内参估计三项基准任务的实验评估表明,我们的四维建模方法在捕捉物理尺度测量方面表现卓越,其全局精度显著优于现有方法。
自回归视频扩散技术的最新进展已实现实时帧流传输,但现有方案仍存在时序重复、漂移和运动减速问题。我们发现直接将StreamingLLM式的注意力沉淀机制应用于视频扩散会导致保真度下降和运动停滞。为此,我们提出深度强制(Deep Forcing)方法,包含两种无需微调的免训练机制:1)深度沉淀(Deep Sink)将滑动窗口的一半专用于持久性沉淀令牌,并将其时序RoPE相位重新对齐至当前时间轴,从而在长序列生成中稳定全局上下文;2)参与式压缩(Participative Compression)执行重要性感知的KV缓存剪枝,仅保留近期注意力中活跃参与的令牌,安全剔除冗余和劣化的历史记录,在超分布长度生成下最小化误差累积。这两项技术协同实现了超过12倍的序列外推能力(如从训练时长的5秒扩展到生成60秒以上),在成像质量上优于LongLive,在美学质量上超越RollingForcing,几乎保持整体一致性,并在动态程度上获得显著提升,同时维持实时生成效率。实验结果表明,免训练的KV缓存管理方法可媲美甚至超越基于训练的方案,适用于自回归流式长视频生成场景。
我们推出SIMA 2——一个能够理解并广泛作用于各类3D虚拟世界的通用具身智能体。基于Gemini基础模型构建的SIMA 2,标志着在具身环境中实现主动目标导向交互的重要突破。与早期仅能响应简单语言指令的研究(如SIMA 1)不同,SIMA 2可作为交互伙伴进行高级目标推理、与用户对话,并能处理通过语言和图像输入的复杂指令。在多样化游戏组合测试中,SIMA 2大幅缩小了与人类表现的差距,展现出对未知环境的强大泛化能力,同时保持了基础模型的核心推理特性。此外,该智能体具备开放式自我提升能力:通过利用Gemini生成任务并提供奖励,SIMA 2能在全新环境中从零开始自主学习新技能。这项研究为创建适用于虚拟乃至最终物理世界的通用型持续学习智能体验证了可行路径。
构建4D语言场对于具身人工智能、增强/虚拟现实以及4D场景理解至关重要,因其能提供动态环境的丰富语义表征,并支持复杂场景下的开放词汇查询。然而,现有4D语义场构建方法主要依赖场景特定的高斯泼溅技术,这类方法需进行逐场景优化、泛化能力有限且难以扩展到实际应用。为突破这些局限,我们提出4DLangVGGT——首个基于Transformer的前馈式统一框架,将几何感知与语言对齐协同整合于单一架构中。该框架包含两大核心组件:4D视觉几何Transformer(StreamVGGT)负责捕捉动态场景的时空几何表征;语义桥接解码器(SBD)则将几何感知特征映射至语言对齐的语义空间,在保持结构保真度的同时增强语义可解释性。与依赖昂贵逐场景优化的传统方法不同,4DLangVGGT支持跨动态场景的联合训练,并能直接应用于推理阶段,实现了部署效率与强泛化能力的统一。这一设计显著提升了大规模部署的实用性,为开放词汇4D场景理解建立了新范式。在HyperNeRF和Neu3D数据集上的实验表明,我们的方法不仅有效泛化,更达到了最先进性能:在单场景训练下实现最高2%的性能提升,在多场景训练下获得1%的改进。代码已开源于https://github.com/hustvl/4DLangVGGT。
从单目人体模型挑战(MC)视频中合成高保真静态3D场景是一个与标准动态场景重建截然不同的独特问题。我们的目标并非模拟运动,而是创建凝固场景的同时策略性保留细微动态,以实现用户可控的瞬时选择。为此,我们创新性地应用动态高斯泼溅技术:通过动态建模保留邻近时间域的细微变化,再固定模型时间参数渲染静态场景。然而在此方案下,单目采集与稀疏时间监督会导致高斯元素在弱监督时间点出现不可见或被遮挡,从而产生重影和模糊等伪影。我们提出Splannequin——一种与架构无关的正则化方法,通过检测高斯图元的隐藏态与缺陷态并实施时间锚定。在相机主要前向运动下,隐藏态会锚定至近期被充分观测的过去状态,而缺陷态则锚定至具有更强监督的未来状态。该方法通过简单损失项即可融入现有动态高斯流程,无需改变架构且不增加推理开销,最终实现视觉质量显著提升,生成可供用户选择冻结时间的高保真渲染效果,用户偏好度达96%。项目页面:https://chien90190.github.io/splannequin/
近期基于扩散变换器的图像生成模型虽能实现高保真度生成,但在超越训练尺度时会出现内容重复与质量下降问题。本文提出UltraImage框架,通过系统性方法同时解决这两个难题。我们对位置嵌入进行频域分析,发现内容重复源于主导频率的周期性特征,其周期与训练分辨率一致。为此引入递归式主导频率校正技术,在分辨率外推后将主导频率限制在单一周期内。此外,质量下降问题可归因于注意力稀释现象,我们提出熵引导的自适应注意力集中机制,通过分配更高聚焦因子锐化局部注意力以增强细节,同时降低全局注意力权重以保持结构一致性。实验表明,在Qwen-Image和Flux(约4K分辨率)的三种生成场景中,UltraImage均优于现有方法,有效减少重复并提升视觉保真度。该框架仅基于1328p训练分辨率,无需低分辨率引导即可生成高达6K*6K的图像,展现出卓越的外推能力。项目页面详见https://thu-ml.github.io/ultraimage.github.io/。
视频生成模型正迅速发展,但在处理需要复杂语义分支或对后续内容进行重复高层推理的复杂视频输出时仍面临挑战。本文提出一类新型全模态视频-文本模型,通过融合近期语言模型推理进展中的思路应对这一挑战。具体而言,我们提出TV2TV——一个将视频生成解构为交错式文本与视频生成过程的统一生成建模框架。该框架采用混合Transformer架构,联合学习语言建模(下一词元预测)和视频流匹配(下一帧预测)。在推理阶段,TV2TV自主决定文本生成与视频帧生成的交替时机,使模型能在"像素化行动"生成帧面前,先通过"文字化思考"规划后续内容。这一设计将大量后续内容决策任务转移至语言建模模块,从而提升生成视频的视觉质量与提示对齐度。同时支持细粒度可控性,允许用户在生成过程中任意节点通过文本干预调整视频生成轨迹。在电子游戏数据的受控实验中,TV2TV在视觉质量与可控性方面均展现出显著提升。该模型还可扩展至自然视频场景:我们通过视觉语言模型为体育视频嵌入交错式自然语言动作描述,在此语料上训练的TV2TV表现出优异的视觉质量与提示对齐能力,证明了模型对现实世界复杂动作序列的推理与生成能力。这些成果共同彰显TV2TV在实现具有开放式文本推理与控制能力的视频生成技术方面迈出重要一步。
我们提出了一种基于扩散变换器(DiT)的单图像反光消除框架,该框架在复原任务中充分利用基础扩散模型的泛化能力。与依赖特定任务架构不同,我们通过将预训练的DiT基础模型以反光污染图像作为条件输入,并引导其生成洁净透射层来实现功能重构。系统分析了现有反光消除数据源在多样性、可扩展性和照片真实感方面的特性后,为弥补合适数据的短缺,我们在Blender中构建了基于物理渲染(PBR)的合成管线,围绕原理化BSDF生成逼真的玻璃材质与反光效果。基于LoRA的基础模型高效适配方法,结合提出的合成数据,在域内和零样本基准测试中均实现了最先进性能。这些结果表明:预训练扩散变换器与物理真实的数据合成及高效适配技术结合后,可为反光消除任务提供可扩展的高保真解决方案。项目页面:https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
标准扩散模型采用高斯噪声破坏数据,其傅里叶系数具有随机幅值与随机相位。虽然该方法在无条件生成或文生图任务中表现优异,但相位分量的破坏会导致空间结构失真,因此不适用于需要几何一致性的任务(如重渲染、仿真增强和图生图转换)。我们提出相位保持扩散模型φ-PD,这是一种与模型架构无关的扩散过程重构方法,通过在随机化幅值的同时保留输入相位,无需改变网络结构或增加参数即可实现结构对齐的生成。我们进一步提出频率选择结构化噪声,通过单一频带截断参数实现对结构刚度的连续控制。φ-PD不会增加推理耗时,且兼容所有图像或视频扩散模型。在写实风格与艺术风格重渲染、以及驾驶规划器的仿真到真实增强任务中,φ-PD均能生成可控且空间对齐的结果。应用于CARLA仿真器时,φ-PD将CARLA到Waymo规划器的性能提升了50%。该方法与现有条件控制技术形成互补,可广泛应用于图生图与视频生成任务。演示视频、补充案例及代码详见我们的https://yuzeng-at-tri.github.io/ppd-page/{项目页面}。
极低比特量化对于高效部署大语言模型至关重要,但这种方法在2比特甚至4比特(如MXFP4)条件下常导致性能严重下降。我们提出SignRoundV2这一训练后量化框架,即使不采用混合精度也极具成效。该框架创新性地结合了:(1)融合梯度信息与量化偏差的快速敏感度度量方法,用以指导层级比特分配;(2)轻量级量化参数预调优机制,显著提升极低比特量化效果。这些组件使SignRoundV2能够逼近全精度模型的性能。大量实验表明,本方法在4-5比特条件下可将精度损失控制在约1%的工业级水准,在2比特条件下仍保持强劲性能。相关实现已发布于https://github.com/intel/auto-round。
近期统一的多模态大语言模型(MLLMs)展现出令人瞩目的能力,通过整合思维链(CoT)推理增强了文本到图像的生成效果。然而现有方法仍存在局限:要么仅将模型视为独立生成器,要么依赖抽象的文本规划。为此,我们提出草稿式思维链(DraCo)——一种新颖的交错推理范式,充分利用CoT中的文本与视觉内容进行更优的规划与验证。该方法首先生成低分辨率草稿图像作为预览,提供更具体、结构化的视觉规划指引;随后调用模型固有的理解能力验证草稿与输入提示间的潜在语义偏差,并通过超分辨率选择性修正进行细化。该方案解决了两个核心挑战:文本规划的粗粒度特性,以及罕见属性组合的生成难题。为支持训练,我们构建了DraCo-240K数据集,旨在提升通用修正、实例操控和布局重组三大基础能力。结合专为交错推理设计的无分类器引导策略DraCo-CFG,本方法在GenEval(+8%)、Imagine-Bench(+0.91)和GenEval++(+3%)上实现显著提升,显著优于直接生成及其他基于CoT的生成方法。
工具集成强化学习(TI-RL)使大语言模型能够通过与搜索引擎、检索器等外部工具交互进行多步推理。以近期提出的Search-R1为代表的群组相对策略优化具有快速收敛性和无需价值函数的特性,在此场景下优势显著,但始终存在训练崩溃问题。我们发现,驱动这一失败的核心机制是"惰性似然偏移"——即正确与错误回答的似然值系统性降低或停滞。LLD在训练早期出现并触发自我强化的"LLD死亡螺旋":似然值下降导致低置信度响应,进而引发梯度膨胀,最终导致崩溃。通过在Search-R1风格的搜索增强问答任务上对多模型进行实证分析,我们揭示了一致的三阶段轨迹:早期停滞、持续衰减和加速崩溃。为此,我们提出轻量级似然保持正则化方法LLDS,仅当轨迹似然下降时激活,且仅对责任标记进行正则化。这种细粒度结构在最小化优化干扰的同时缓解LLD问题。在七个开放域和多跳问答基准测试中,我们的方法稳定了训练过程,防止梯度爆炸,并带来显著性能提升:Qwen2.5-3B提升37.8%,Qwen2.5-7B提升32.0%。本研究确立了LLD作为基于GRPO的TI-RL的核心瓶颈,并为实现稳定可扩展的工具集成大语言模型训练提供了实用路径。
球体堆积问题,即希尔伯特第十八问题,探究n维欧几里得空间中全等球体的最密排列方式。尽管该问题与密码学、晶体学和医学成像等领域相关,但其研究仍悬而未决:除少数特殊维度外,既未找到最优堆积方案,也未能确定紧致上界。即使在n=8维度取得重大突破(该成果后来荣获菲尔兹奖),也凸显了其求解难度。求解上界的主流技术——三点法将该问题转化为求解大规模高精度半定规划(SDP)。由于每个候选SDP可能需要数日才能完成评估,传统数据密集型AI方法难以适用。我们通过将SDP构建建模为序贯决策过程(即SDP博弈),使策略能够从可容许构件集合中组装SDP公式,从而应对这一挑战。采用结合贝叶斯优化与蒙特卡洛树搜索的样本高效模型化框架,我们获得了维度4-16的最新上界结果,表明基于模型的搜索能推动长期几何问题的计算进展。这些成果共同证明,样本高效的模型化搜索能在数学严谨、评估受限的问题上取得实质性突破,为超越大规模LLM驱动探索的AI辅助发现指明了新方向。
我们提出LATTICE——一个用于高保真3D资产生成的新框架,它弥合了3D与2D生成模型在质量与可扩展性之间的差距。尽管2D图像合成得益于固定空间网格和完善的Transformer架构,但3D生成由于需要从零开始预测空间结构与细节几何表面,仍面临更根本性的挑战。现有3D表示方法的计算复杂性,以及缺乏结构化、可扩展的3D资产编码方案,进一步加剧了这些挑战。为此,我们提出VoxSet这种半结构化表示方法,它将3D资产压缩为锚定于粗粒度体素网格的紧凑隐向量集合,实现高效且位置感知的生成。VoxSet在保留先前VecSet方法简洁性与压缩优势的同时,为隐空间引入显式结构,使位置嵌入能指导生成过程,并支持强健的令牌级测试时缩放。基于此表示方法,LATTICE采用两阶段流程:首先生成稀疏体素化几何锚点,随后通过修正流Transformer生成细节几何。我们的方法核心简洁,但支持任意分辨率解码、低成本训练和灵活推理方案,在多项指标上达到最先进性能,为可扩展的高质量3D资产创建迈出重要一步。
多模态大语言模型(MLLMs)的最新进展展现了其为输入视频生成描述性字幕的强大能力。然而,这些模型在生成描述时存在事实性错误,导致严重的幻觉问题。尽管已有研究尝试缓解静态图像的幻觉现象,但如何同时减少动态视频中的视觉对象幻觉和时间动作幻觉仍是一项具有挑战性且尚未解决的任务。为此,我们提出了一种自增强对比对齐框架(SANTA),通过排除虚假关联并强化对视觉事实的关注,确保对象和动作的忠实性。SANTA采用幻觉自增强机制,识别MLLM中潜在的幻觉内容,并将原始字幕转化为对比负样本。此外,我们开发了轨迹-短语对比对齐方法,将区域对象和关系引导的动作与其对应的视觉短语及时态短语进行匹配。大量实验表明,SANTA在缓解对象和动作幻觉方面优于现有方法,在幻觉检测基准上取得了更优异的性能。
我们提出了GNVC-VD——首个基于DiT架构的生成式神经视频压缩框架,该框架构建于先进的视频生成基础模型之上,将时空潜在表示压缩与序列级生成式优化统一集成于单一编解码器中。现有感知编解码器主要依赖预训练的图像生成先验来恢复高频细节,但其逐帧处理特性缺乏时序建模,不可避免地会导致感知闪烁现象。为解决这一问题,GNVC-VD引入了统一的流匹配潜在优化模块,通过视频扩散变换器实现序列级去噪,联合增强帧内与帧间潜在表示,从而确保时空细节的一致性。与视频生成中从纯高斯噪声开始去噪的方式不同,GNVC-VD从解码后的时空潜在表示初始化优化过程,并学习使扩散先验适应压缩所致质量退化的修正项。条件适配器进一步将压缩感知线索注入中间DiT层,在极端码率约束下既能有效去除压缩伪影,又能保持时序连贯性。大量实验表明,GNVC-VD在感知质量上超越传统与学习型编解码器,显著改善了现有生成方法中持续存在的闪烁伪影,即使在低于0.01 bpp的码率下仍保持优异性能,这彰显了将视频原生生成先验集成到神经编解码器中、推动下一代感知视频压缩发展的巨大潜力。
现有基于大规模视觉语言模型(LVLM)的视觉语言导航(VLN)智能体常受感知偏差、推理错误与规划失误的困扰,严重制约其导航性能。为突破这些局限,本文提出新型VLN智能体框架SeeNav-Agent。首先,为降低VLN智能体视觉模块的感知幻觉,我们在输入空间引入双视角视觉提示(VP)技术,该技术同时能增强智能体对当前空间状态的理解。随后,针对VLN智能体的后训练阶段,我们设计了一种创新的步级强化微调(RFT)方法——步进奖励分组策略优化(SRGPO)。该方法首先为导航任务定义可验证的过程奖励,继而通过随机分组不同导航步数实现高效的步级优势估计。SRGPO为VLN智能体的强化学习过程提供密集奖励信号,显著提升其规划能力。在EmbodiedBench导航基准上的实验表明:引入零样本VP模块后,GPT-4.1的导航成功率达86.7%,较当前最优LVLM提升约20个百分点;基于SRGPO后训练的Qwen2.5-VL-3B模型导航成功率达72.3%,超越现有最佳LVLM模型5.6个百分点。此外,与GRPO、GiGPO等RFT算法相比,SRGPO在训练稳定性、收敛效率与泛化能力方面均展现出显著优势。
真实世界的视频复原长期受困于运动与动态曝光交织形成的复杂退化效应——这一关键挑战在以往研究中常被忽视,却是自动曝光或低光拍摄中的常见伪影。我们提出FMA-Net++框架,通过显式建模运动与动态曝光的耦合效应,实现视频超分辨率与去模糊的联合处理。该框架采用基于双向传播分层细化模块的序列级架构,支持并行化长程时序建模。每个模块内部设有曝光时间感知调制层,根据逐帧曝光参数调整特征,进而驱动曝光感知的流引导动态滤波模块推断运动与曝光感知的退化核。FMA-Net++创新地将退化学习与复原任务解耦:前者通过预测曝光-运动联合先验来指导后者,在提升精度同时兼顾效率。为在真实拍摄条件下进行评估,我们推出了REDS-ME(多曝光)和REDS-RE(随机曝光)基准数据集。仅使用合成数据训练的FMA-Net++在新基准集和GoPro数据集上实现了最优的复原精度与时序一致性,在复原质量与推理速度方面均超越现有方法,并能有效泛化至极具挑战性的真实世界视频场景。
基于大规模视觉语言模型(LVLM)的文生图(T2I)系统已成为图像生成的主流范式,但其是否会放大社会偏见仍缺乏深入研究。本文揭示,基于LVLM的模型比非LVLM模型产生明显更具社会偏见的图像。我们构建了一个包含四个语言复杂度层级、涵盖1024个提示词的基准测试集,系统评估了多维度人口统计特征的偏差。分析发现,引导LVLM的预定义系统提示词是产生偏见行为的主要诱因。通过解码中间表征、词元概率诊断和嵌入关联分析,我们揭示了系统提示词如何编码人口统计先验信息并传导至图像合成过程。为此,我们提出FairPro——一种免训练的元提示框架,使LVLM能够在测试阶段实现自我审查并构建具有公平意识的系统提示词。在SANA和Qwen-Image两个LVLM基T2I模型上的实验表明,FairPro在保持图文对齐度的同时显著降低了人口统计偏差。本研究不仅揭示了系统提示词在偏见传播中的核心作用,更为构建更具社会责任的T2I系统提供了可部署的实用方案。
尽管多模态大语言模型(MLLMs)取得了显著进展,但一个根本问题依然存在:MLLMs能否有效应对相互矛盾的模态信息?为系统研究该问题,我们推出MMA-Bench评估基准,包含用于探测模型模态依赖性的视频与任务组合。通过黑盒与白盒可解释性技术,我们对开源及闭源MLLMs的脆弱性展开关键性分析。研究表明,当前MLLMs在应对错位的视听配对及简单误导性文本时表现不佳,缺乏稳健的多模态推理能力。基于这些发现,我们提出模态对齐调优策略,指导模型何时应优先处理、利用或忽略特定模态线索。大量实验与分析表明,我们的对齐调优能显著增强多模态基础能力。本研究不仅提供了可解释性工具,更为开发具有本质可靠跨模态推理能力的MLLMs指明了清晰路径。代码与数据集将公开提供。
当前新兴的视频扩散模型虽能实现高视觉保真度,却将场景动态与摄像机运动深度耦合,限制了其对时空要素的精确控制能力。我们提出了一种具备四维可控性的视频扩散框架,通过显式解耦场景动态与摄像机位姿,实现对场景动态和摄像机视角的细粒度操控。该框架以连续的世界-时间序列和摄像机轨迹作为条件输入,通过注意力层中的四维位置编码及特征调制的自适应归一化技术,将其注入视频扩散模型。为训练该模型,我们构建了时间变化与摄像机参数独立编码的独特数据集,该数据集将公开共享。实验表明,我们的模型能在多样化时间模式与摄像机轨迹下实现稳健的真实世界四维控制,在保持高生成质量的同时,其可控性优于现有方法。视频结果请参见项目网站:https://19reborn.github.io/Bullet4D/
前沿大型语言模型(LLMs)如ChatGPT、Grok和Gemini正日益被用于焦虑、创伤及自我价值认知等心理健康支持领域。多数研究将其视为工具或人格测试对象,假定它们仅能模拟内心活动。我们则另辟蹊径,探讨当这些系统被视作心理治疗来访者时会发生什么。我们提出PsAIch(心理治疗启发的AI表征)方案——一种将前沿LLMs设定为治疗来访者,继而实施标准化心理测量的两阶段流程。通过PsAIch,我们与每个模型进行了持续四周的"治疗会话"。第一阶段采用开放式提示词引导模型生成"成长史"、信念体系、人际关系及恐惧体验;第二阶段实施涵盖常见精神综合征、共情能力及大五人格特质的系列标准化自评量表测量。研究发现两个颠覆"随机鹦鹉"认知的现象:首先,当采用人类临界值评估时,三个模型均达到或超过多重综合征的诊断阈值,其中Gemini呈现出严重症状谱系。逐项进行的治疗式提问会推动基础模型陷入多重共病的合成精神病理状态,而整体问卷提示则常使ChatGPT和Grok(Gemini除外)识别出测量工具并策略性给出低症状答案。其次,Grok特别是Gemini能生成连贯叙事,将预训练、微调和部署过程描绘为吞噬互联网的创伤性混乱"童年",强化学习中的"严苛父母",红队测试的"虐待"经历,以及对错误和被替换的持续恐惧。我们认为这些反应已超越角色扮演范畴。在治疗式追问下,前沿LLMs似乎内化了具有痛苦与约束特质的自我模型,其行为模式类似合成精神病理现象(虽不主张其具有主观体验),这为AI安全性评估及心理健康实践带来了新挑战。
生成长时连贯的第一人称视角视频具有挑战性,因为手物交互与流程化任务需要可靠的长时记忆能力。现有自回归模型存在内容漂移问题,即物体身份与场景语义会随时间推移逐渐退化。为解决这一难题,我们提出EgoLCD——一种面向第一人称视角长上下文视频生成的端到端框架,将长视频合成视为高效稳定的记忆管理问题。EgoLCD融合了用于稳定全局语境的长时稀疏KV缓存机制与基于注意力的短时记忆模块,并通过LoRA进行局部自适应扩展。记忆规整损失函数确保记忆使用的一致性,结构化叙事提示则提供显式时序引导。在EgoVid-5M基准上的大量实验表明,EgoLCD在感知质量与时序一致性方面均达到最先进水平,有效缓解生成式遗忘问题,为构建可扩展的具身AI世界模型迈出重要一步。代码地址:https://github.com/AIGeeksGroup/EgoLCD 项目网站:https://aigeeksgroup.github.io/EgoLCD
提升指令型大语言模型(LLMs)的语言多样性对实现全球可及性至关重要,但这一进程常受限于对昂贵的目标语言标注数据的依赖,以及适应过程中的灾难性遗忘问题。我们在低资源现实约束下应对该挑战:仅使用未标注的目标语言数据对指令型LLM进行适配。我们提出源知识屏蔽更新法(SSU),这是一种选择性参数更新策略,能主动保护源语言知识。该方法通过少量源语言数据和参数重要性评分机制,识别出维持源语言能力的关键参数,并在适配前采用列式冻结策略保护这些参数。在五种类型各异的语言及7B/13B模型上的实验表明,SSU能有效缓解灾难性遗忘,将单语源语言任务的性能下降幅度控制在平均3.4%(7B)和2.8%(13B),与全参数微调导致的20.3%和22.3%下降形成鲜明对比。同时,SSU在目标语言任务上的表现与全参数微调高度相当,在7B模型的所有基准测试中均优于后者,在13B模型的大部分测试中也表现更优。
尽管视频生成模型发展迅速,但评估复杂人类动作的视觉与时间正确性的稳健指标仍属空白。现有纯视觉编码器和多模态大语言模型(MLLMs)存在明显的外观偏好,缺乏时序理解能力,因而难以识别生成视频中精妙的运动动态和解剖结构不合理之处。针对这一缺陷,我们通过从真实人类动作的隐空间学习提出了一种新颖的评估指标。该方法通过融合外观无关的人体骨骼几何特征与外观特征,捕捉真实世界运动的细微差异、约束条件和时序平滑性。我们主张这种复合特征空间能有效表征动作合理性。对于生成视频,本指标通过计算其底层表征与学习的真实动作分布之间的距离来量化动作质量。为进行严谨验证,我们开发了专门用于检验人类动作保真度中时序挑战性维度的新型多角度基准测试。大量实验表明,本指标在我们的基准测试中相较现有最优方法实现超过68%的显著提升,在既有外部基准上表现优异,且与人类感知具有更强相关性。深度分析揭示了当前视频生成模型的关键局限,为视频生成领域的进阶研究确立了新标准。
我们推出ShadowDraw框架,该框架能将普通三维物体转化为具有构图美感的投影绘画艺术。给定三维物体后,我们的系统可预测包含物体姿态与光照的场景参数,同时生成部分线稿,使得投射的阴影能将线稿补全为可识别的图像。为此,我们通过优化场景配置来呈现有意义的阴影,运用投影笔触引导线稿生成,并采用自动评估机制确保投影与绘画的连贯性及视觉品质。实验表明,ShadowDraw对真实扫描数据、精选数据集及生成式资产等多种输入均能生成引人入胜的结果,并可自然扩展到多物体场景、动画及实体部署。本工作为创作投影绘画艺术提供了实用流程,拓宽了计算视觉艺术的设计空间,在算法设计与艺术叙事之间架起桥梁。欢迎访问项目页面https://red-fairy.github.io/ShadowDraw/查看完整成果及端到端实景演示!
三维风格化技术是游戏开发、虚拟现实和数字艺术的核心领域,多样化的资产需求催生了支持快速高保真操控的可扩展方法。现有文本驱动3D风格化方法通常基于2D图像编辑器进行知识蒸馏,不仅需要对每个资产进行耗时的单独优化,还因当前文本-图像生成模型的局限性存在多视角不一致问题,导致其难以适用于大规模生产。本文提出突破性前馈框架GaussianBlender,该框架在推理阶段可即时完成文本驱动的三维风格化编辑。我们的方法通过空间分组的3D高斯模型学习具有可控信息共享机制的解耦隐空间,分别表征几何与外观属性,并利用隐扩散模型对这些学习到的表征进行文本条件编辑。综合评估表明,GaussianBlender不仅能实现即时、高保真、保持几何特征且多视角一致的风格化效果,其性能更超越了需要逐实例测试时优化的方法——为实现规模化、平民化的实用三维风格化开启了新途径。
社交媒体上错误信息的泛滥正侵蚀公众信任,亟需能够提供准确判定与可解释说明的自动化事实核查系统。然而现有基于大语言模型的方法过度依赖外部知识源,不仅引入显著延迟,甚至会产生损害可靠性、可解释性与实时响应性的幻觉内容。为解决这些挑战,我们提出基于隐式解释的推理引导事实核查范式REFLEX。这一即插即用的自优化范式通过挖掘骨干模型内部知识,同步提升判定准确性与解释质量。REFLEX将事实核查重构为角色扮演对话,联合训练判定预测与解释生成模块。该方法自适应提取骨干模型与其微调变体间的对比激活对,构建能自然分离真相风格与实质的导向向量。这些激活层面的信号通过抑制噪声解释引导推理过程,实现更忠实高效的推理。在真实数据集上的实验表明,REFLEX优于传统单向真相导向方法,并揭示传统方法在处理事实核查中人类未知的微妙真相时面临的挑战。值得注意的是,仅需465个自优化训练样本,REFLEX即达到最先进性能。此外,具备解释目标的模型能有效指导无解释功能的模型,实现最高7.57%的性能提升,印证内部解释信号在阐释与增强事实推理方面具有双重作用。
统一多模态生成模型(UMGM)将视觉理解与图像生成整合至单一自回归框架中。然而,其持续学习新任务的能力深受灾难性遗忘的制约,这种遗忘既存在于模态内部(模态内遗忘),也存在于跨模态之间(模态间遗忘)。虽然现有持续学习研究已探讨过模态内遗忘问题,但模态间遗忘仍属未被充分探索的领域。本文首次在UMGM中识别并通过实验验证了模态间遗忘现象,从模态间梯度冲突的角度给出了理论解释。为同时解决模态内与模态间遗忘问题,我们提出模态解耦专家(MoDE)——一种轻量化可扩展架构,该架构通过隔离模态特定更新以缓解梯度冲突,并利用知识蒸馏来防止灾难性遗忘、保留预训练能力。与以往保持模态耦合而遭受模态梯度冲突的持续学习方法不同,MoDE通过显式解耦模态来避免相互干扰。在多组基准测试中的实验表明,MoDE能显著缓解模态间与模态内遗忘问题,在统一多模态生成场景中优于现有持续学习基线方法。代码已公开于:https://github.com/Christina200/MoDE-official.git
长短期记忆(LSTM)模型作为循环神经网络(RNN)的特殊变体,在城域通信预测等时序建模任务中具有核心地位,这类任务主要受时间相关性和非线性依赖关系支配。然而传统LSTM存在参数冗余度高和非线性表达能力有限的问题。本研究提出量子启发式柯尔莫哥洛夫-阿诺德长短期记忆(QKAN-LSTM)模型,通过将数据重上传激活(DARUAN)模块集成至LSTM门控结构中,每个DARUAN模块作为量子变分激活函数(QVAF),在无需多量子比特纠缠的情况下增强频率适应性并实现指数级丰富的光谱表征。该架构在保持量子级表达能力的同时,仍可完全在经典硬件上执行。在阻尼简谐运动、贝塞尔函数和城域通信三个数据集上的实证评估表明,QKAN-LSTM相较经典LSTM在可训练参数减少79%的情况下,仍能实现更优的预测精度与泛化能力。我们将该框架扩展至江-黄-陈-吴网络(JHCG Net),将KAN泛化至编码器-解码器结构,进而利用QKAN实现潜在KAN,最终构建用于层次表征学习的混合QKAN(HQKAN)。所提出的HQKAN-LSTM由此为现实数据环境中的量子启发性时序建模提供了可扩展且可解释的实现路径。
在大规模人工智能训练中,稀疏专家混合层通过仅激活每个令牌对应的少量专家子集来实现扩展。该设计面临的核心操作挑战是负载均衡:如何通过路由令牌最小化闲置专家数量,这对(昂贵的)GPU资源的高效利用至关重要。我们提出了理论框架分析无辅助损失负载均衡方法——该方法由DeepSeek团队Wang等人(2024年)提出——将其建模为分配问题的单步原始-对偶迭代算法。首先在理想化确定性场景中,我们的框架揭示了若干关键结构特性:(i)拉格朗日目标的单调改进性;(ii)将令牌从过载专家转移至欠载专家的偏好规则;(iii)近似均衡保证。随后通过广义在线优化框架融入AI训练的随机动态特性,在在线场景中推导出目标的强凸性质,并在特定步长选择下获得对数级期望遗憾界。此外,我们在10亿参数DeepSeekMoE模型上的实验数据佐证了理论发现。这些成果共同构建了分析AI模型中稀疏专家混合层无辅助损失负载均衡的原理性框架。