每日精选AI研究论文及翻译
随着XR设备的日益普及,高质量立体视频的需求持续增长,但其制作仍面临成本高昂且易产生伪影的难题。为解决这一问题,我们提出StereoWorld——一个端到端框架,通过改造预训练视频生成器实现高保真单目到立体视频的生成。该框架在基于单目视频输入对模型进行联合条件约束的同时,引入几何感知正则化对生成过程进行显式监督,以确保三维结构保真度。我们还集成了时空分块机制,以实现高效的高分辨率合成。为支持大规模训练与评估,我们构建了包含超1100万帧的高清立体视频数据集,所有帧均按自然人类瞳距(IPD)进行校准。大量实验表明,StereoWorld在视觉保真度与几何一致性方面显著优于现有方法,能生成质量更优的立体视频。项目页面详见:https://ke-xing.github.io/StereoWorld/。
扩散模型的最新进展显著提升了图像生成与编辑能力,然而生成或重建具有透明通道的分层PSD文件仍极具挑战。我们提出OmniPSD——基于Flux生态构建的统一扩散框架,通过情境学习实现文本到PSD生成与图像到PSD解构的双重功能。在文本到PSD生成任务中,OmniPSD将多个目标图层空间排布于单一画布,通过空间注意力机制学习其组合关系,生成语义连贯且层次分明的图层结构。对于图像到PSD解构任务,该框架执行迭代式情境编辑,逐步提取并擦除文本与前景区块,从单张扁平化图像重建可编辑的PSD图层。我们采用RGBA-VAE作为辅助表征模块,在保持透明度的同时不影响结构学习。基于新建的RGBA分层数据集进行大量实验表明,OmniPSD在生成保真度、结构一致性与透明度感知方面表现卓越,为扩散 Transformer实现分层设计生成与解构提供了新范式。
理解人类大脑如何表征视觉概念以及这些表征在哪些脑区编码,仍是一个长期存在的挑战。数十年的研究推进了我们对视觉表征的理解,但脑信号依然庞大而复杂,且可能的视觉概念空间极为广阔。因此,大多数研究仍停留在小规模阶段,依赖人工检查,聚焦于特定脑区和属性,且鲜少包含系统性验证。我们提出了一种大规模自动化框架,用于发现并解释人类大脑皮层中的视觉表征。我们的方法包含两个主要阶段:首先通过无监督数据驱动分解方法在功能磁共振成像活动中发现候选可解释模式;随后通过识别最能激发该模式的自然图像集,并生成描述其共享视觉含义的自然语言解释来阐释每个模式。为实现规模化处理,我们引入了自动化流程,可测试多个候选解释、分配定量可靠性评分,并为每个体素模式选择最一致的描述。该框架揭示了涵盖众多不同视觉概念的数千个可解释模式,包括此前未报道的细粒度表征。
视觉概念组合技术旨在将图像和视频中的不同元素融合为统一连贯的视觉输出,但在从视觉输入中准确提取复杂概念、灵活组合图像与视频概念方面仍存在不足。我们提出Bind & Compose方法,通过将视觉概念与对应提示词绑定,并利用来自多源数据的已绑定提示词组合目标指令,实现单样本级的灵活视觉概念组合。该方法采用分层绑定器结构,在扩散变换器中通过交叉注意力机制将视觉概念编码为对应提示词,从而实现复杂视觉概念的精准解构。为提升概念-词汇绑定精度,我们设计了"多样化吸收机制",通过引入辅助吸收词符在多样化提示词训练时消除概念无关细节的影响。针对图像与视频概念的兼容性问题,提出时序解耦策略,采用双分支绑定器结构将视频概念训练解耦为两个阶段以进行时序建模。实验表明,本方法在概念一致性、提示词忠实度和运动质量方面均优于现有技术,为视觉创意开启了新的可能性。
我们推出MotionEdit——一个专注于运动中心图像编辑的新型数据集,该任务旨在修改主体动作与交互的同时保持身份特征、结构完整性和物理合理性。与现有专注于静态外观修改或仅包含稀疏低质量运动编辑的数据集不同,MotionEdit通过从连续视频中提取并验证的真实运动变换,提供了描绘逼真运动转换的高保真图像对。这一新任务不仅具有科学挑战性,更具备实际意义,可支撑帧控视频合成与动画生成等下游应用。 为评估模型在这一新任务上的表现,我们提出MotionEdit-Bench基准测试,该基准通过运动中心编辑任务挑战模型性能,并采用生成式、判别式及偏好度量的多维评估体系。基准测试结果表明,运动编辑对当前最先进的基于扩散的编辑模型仍具极大挑战。为此,我们提出MotionNFT(运动引导的负感知微调)——一种通过计算输入图像与模型编辑图像间运动流与真实运动匹配度的运动对齐奖励,引导模型实现精准运动变换的后训练框架。在FLUX.1 Kontext和Qwen-Image-Edit上的大量实验表明,MotionNFT能在不牺牲通用编辑能力的前提下,持续提升基础模型在运动编辑任务中的编辑质量与运动保真度,验证了其有效性。
思维链推理在自然语言处理领域的复杂任务求解中取得了显著成功,而近期出现的多模态大语言模型将这一范式扩展至视频推理领域。然而,现有模型通常依赖冗长的推理链和大量输入视觉标记。基于基准研究的实证观察,我们提出假设:结合精简视觉标记的简洁推理足以实现有效的视频推理。为验证该假设,我们设计并验证了一种高效的后训练与推理框架,可增强视频多模态大语言模型的推理能力。该框架使模型能够基于压缩视觉标记进行操作,并在回答问题前生成简明的推理轨迹。优化后的模型不仅实现了推理效率的大幅提升,在多样化基准测试中展现出竞争优势,还避免了对人工思维链标注或监督微调的依赖。综合实验结果表明,类人的冗长思维链推理可能并非通用视频推理的必要条件,而简洁推理既能保证效果又可提升效率。相关代码将在https://github.com/LaVi-Lab/Rethink_CoT_Video发布。
窗口注意力与线性注意力是解决视觉语言模型(VLMs)中二次复杂度及持续增长的KV缓存问题的两大主流策略。然而我们发现,基于窗口的VLMs在序列长度超过窗口大小时会出现性能下降,而线性注意力在OCR、文档理解等信息密集型任务上表现欠佳。为突破这些局限,我们提出InfiniteVL——一种融合滑动窗口注意力与门控DeltaNet的线性复杂度VLM架构。为在有限资源下实现具有竞争力的多模态性能,我们设计了包含蒸馏预训练、指令微调与长序列SFT的三阶段训练策略。值得注意的是,仅使用顶尖VLMs所需训练数据不到2%的情况下,InfiniteVL不仅显著超越以往的线性复杂度VLMs,更可媲美基于Transformer的顶尖VLMs性能,同时展现出有效的长程记忆保持能力。相较于采用FlashAttention-2加速的同规模Transformer VLMs,InfiniteVL在保持恒定延迟与内存占用的同时,实现了超过3.6倍的推理加速。在流式视频理解场景中,该模型能以稳定的24 FPS实时预填充速度运行,并维持长程记忆缓存。代码与模型已开源:https://github.com/hustvl/InfiniteVL。
自动驾驶系统因世界知识有限和视觉动态建模能力不足,在长尾场景中表现不佳。现有基于视觉-语言-动作的方法无法利用未标记视频进行视觉因果学习,而基于世界模型的方法缺乏大语言模型的推理能力。本文构建了多个专用数据集,为复杂场景提供推理与规划标注,进而提出名为UniUGP的统一理解-生成-规划框架,通过混合专家架构协同实现场景推理、未来视频生成和轨迹规划。通过整合预训练的视觉语言模型与视频生成模型,UniUGP利用视觉动态和语义推理增强规划性能。该框架以多帧观测数据和语言指令为输入,生成可解释的思维链推理、物理一致的轨迹以及连贯的未来视频。我们提出四阶段训练策略,在多个现有自动驾驶数据集及自建专用数据集上逐步构建这些能力。实验表明,该方法在感知、推理和决策方面达到最先进水平,并对具有挑战性的长尾场景展现出卓越的泛化能力。
视觉-语言-动作(VLA)模型近期通过将视觉与语言线索映射为动作,实现了机器人操控能力。然而多数VLA模型遵循马尔可夫假设,仅依赖当前观测状态,因而存在时间短视问题,导致长时序任务中的连贯性下降。本研究将运动视为一种更紧凑且信息丰富的时序上下文与世界动态表征,既能捕捉状态间变化又可过滤静态像素级噪声。基于此,我们提出HiF-VLA框架(后瞻-洞察-前瞻协同的VLA),这一统一框架利用运动信息进行双向时序推理。HiF-VLA通过后验先验编码历史动态,借助前瞻推理预测未来运动,并通过后验调节的联合专家模块实现"边行动边思考"的长时序操控范式。实验表明,HiF-VLA在LIBERO-Long和CALVIN ABC-D基准测试中均超越强基线模型,且推理延迟几乎无增加。此外,在真实世界长时序操控任务中,HiF-VLA取得了显著性能提升,证明了其在现实机器人场景中的广泛有效性。
我们提出WonderZoom,这是一种从单张图像生成跨多空间尺度的3D场景内容的新方法。现有3D世界生成模型仍局限于单尺度合成,无法在不同粒度上生成连贯的场景内容。其根本挑战在于缺乏能够生成并渲染空间尺寸差异巨大内容的尺度感知3D表征。WonderZoom通过两项关键创新解决这一问题:(1)采用尺度自适应高斯面元实现多尺度3D场景的生成与实时渲染;(2)设计渐进式细节合成器迭代生成更精细尺度的3D内容。该方法使用户能够"放大"3D区域,并以自回归方式从景观到微观特征逐级合成原本不存在的精细细节。实验表明,WonderZoom在生成质量与尺度一致性上显著优于当前最先进的视频与3D模型,实现了从单张图像创建多尺度3D世界。视频结果与生成多尺度3D世界的交互式查看器详见https://wonderzoom.github.io/。
扩散大语言模型(dLLMs)为自回归模型提供了一种前景广阔的替代方案,但其缓慢的迭代采样严重制约了实际应用。我们提出SchED——一种无需训练、模型无关的提前退出算法,通过聚合全跨度对数边际值,并在达到平滑的进度相关置信度阈值时停止解码。我们在两个dLLM系列(Dream和LLaDA)上评估了SchED,涵盖基础版和指令调优版变体,测试范围包括十项基准任务,涉及多选题问答、数学推理、长文本问答/摘要及翻译等下游任务。SchED实现了显著且稳定的加速效果:在指令调优模型上,平均加速比达3.8-4.0倍,同时保持99.8-100%的基线得分;在基础模型上,SchED以99.1-100%的性能保留率实现持续加速,在更激进设置下最高可达2.34倍。采用对质量损失严苛惩罚的保守速度指标(QPS, γ=4),我们证明SchED具有强鲁棒性,明显优于先前基于置信度的提前退出方法(后者在长文本生成任务中失效)。对模型令牌预测的熵分析表明,指令调优会加速预测熵的衰减。通过将真实的置信度稳定转化为计算效率提升,SchED显著提高了dLLM解码的效率。
知识编辑旨在无需完全重新训练的情况下更新大语言模型中的特定事实。先前的研究尝试调整大语言模型的知识层,证明了对特定内容进行选择性编辑的有效性。然而,这些方法在受控的教师强制评估中的表现与其在终身学习场景中的实际效果之间存在显著差距,这极大限制了其实际应用价值。本文的实证分析揭示了导致该差距的两个核心问题:(1)多数传统方法会使编辑后的模型对新事实过拟合,从而削弱预训练能力;(2)严重缺乏知识巩固阶段,导致新知识未能充分融入大语言模型在自回归生成中的推理行为,造成参数化知识与实际生成行为不匹配。为此,我们提出"编辑后巩固"这一新型知识编辑范式,旨在弥合理论方法与实际应用之间的鸿沟。具体而言:(1)通过基于信任域目标的定向近端监督微调定位编辑范围,限制策略漂移,从而抑制过拟合;(2)随后采用分组相对策略优化的巩固阶段,通过基于综合奖励信号的轨迹级行为优化,将编辑后的知识与基于思维链的推理策略对齐。大量实验表明,本框架在真实场景评估中持续提升编辑的可靠性与泛化能力,同时更好地保持了局部性与预训练能力。
基于语言模型的智能体系统——具备推理、规划与行动能力的AI应用范式——正成为现实世界人工智能应用的主导模式。尽管这类系统已被广泛采用,但其性能决定机制仍缺乏深入探索,导致实践者往往依赖经验法则而非系统性设计原则。我们通过推导智能体系统的定量扩展规律来填补这一空白。我们在四个多样化基准测试(Finance-Agent、BrowseComp-Plus、PlanCraft和Workbench)上展开评估,采用五种典型架构(单智能体、独立型、集中式、分布式、混合式)并实例化于三大语言模型家族,通过标准化工具与令牌预算对180种配置进行受控实验。基于效率、开销、错误放大和冗余等协调指标,我们建立了预测模型(交叉验证R²=0.513),揭示出三大主导效应:(1)工具-协调权衡:在固定计算预算下,工具密集型任务会因多智能体开销而显著受损;(2)能力饱和:当单智能体基线性能超过约45%后,协调带来的收益呈递减或负增长(β=-0.408, p<0.001);(3)拓扑依赖的错误放大:独立智能体通过未检传播将错误放大17.2倍,而集中式协调可控制在4.4倍。在金融推理等可并行任务中,集中式协调使性能提升80.9%;而在动态网络导航任务中,分布式协调表现更优(+9.2% vs +0.2%)。但对于顺序推理任务,所有多智能体变体均导致性能下降39-70%。该框架对87%的保留配置能预测最优协调策略,基于可量化的任务特性为智能体扩展提供了预测性原则。
基于3D高斯溅射(3DGS)在静态三维场景表示中的成功,其向动态场景的扩展(通常称为4DGS或动态3DGS)正受到日益广泛的关注。然而,如何为动态3DGS表示设计更紧凑高效的形变方案,并结合率失真优化的压缩策略,仍是研究尚不充分的领域。现有方法要么依赖时空4DGS中过度指定、存续时间短的高斯图元,要么采用缺乏显式时间控制的规范3DGS形变框架。为此,我们提出TED-4DGS——一种基于时序激活与嵌入的形变方案,通过融合两类方法的优势实现率失真优化的4DGS压缩。该方案建立在基于稀疏锚点的3DGS表示基础上:每个规范锚点被赋予可学习的时序激活参数以控制其在时间维度上的出现与消失过渡,同时通过轻量级锚点时序嵌入从共享形变库中查询生成锚点特定形变。在率失真压缩方面,我们引入基于隐式神经表示的超先验来建模锚点属性分布,并结合通道自回归模型捕捉锚点内部相关性。凭借这些创新设计,本方案在多个真实场景数据集上实现了最先进的率失真性能。据我们所知,这是首次针对动态3DGS表示构建率失真优化压缩框架的探索之一。
扩散式(大型)语言模型(dLLMs)目前在多项任务的下游性能上已能与自回归模型相媲美,同时具备推理效率更高的潜力。其中一种特别成功的变体是掩码离散扩散模型,该模型通过将填充特殊掩码符的缓冲区逐步替换为从模型词汇表中采样的真实标记来实现生成。通过并行解掩多个标记可提升效率,但一次性解掩过多标记会降低生成质量。因此,dLLMs的关键设计环节在于采样流程——即在扩散过程的每一步选择需要替换的标记。事实上,最新研究发现,相比随机解掩,采用置信度阈值等启发式策略能同时提升生成质量和标记吞吐量。但此类启发式方法存在缺陷:需要人工调参,且我们观察到其性能会随缓冲区规模扩大而下降。本研究转而提出使用强化学习训练采样流程。具体而言,我们将掩码扩散采样形式化为马尔可夫决策过程,其中dLLM作为环境载体,并设计了一种基于单层Transformer的轻量级策略架构,可将dLLM的标记置信度映射为解掩决策。实验表明,经训练的采样策略结合半自回归生成时,能达到顶尖启发式方法的性能,并在完整扩散设定中实现超越。我们还验证了策略的可迁移性,发现其能泛化至新的底层dLLM和更长序列。但同时也观察到,当应用于域外数据时策略性能会下降,且通过本方法实现精度-效率权衡的细粒度调优仍具挑战性。
近年来,多模态大语言模型(MLLMs)的快速发展已在各类基准测试中取得显著进展,但其在红外图像理解方面的能力仍有待探索。为填补这一空白,我们推出了首个面向红外图像多模态理解评估的高质量基准IF-Bench。该基准包含从23个红外数据集中精选的499张图像,以及精心构建的680组视觉问答对,覆盖图像理解的10个核心维度。基于此基准,我们采用循环评估、双语测试与混合判断策略系统评估了40余个开源与闭源MLLMs,有效提升了结果的可信度。通过分析揭示了模型规模、架构及推理范式对红外图像理解的影响,为该领域提供了重要洞见。此外,我们提出一种免训练的生成式视觉提示(GenViP)方法,通过先进图像编辑模型将红外图像转换为语义和空间对齐的RGB对应图像,从而缓解领域分布偏移问题。大量实验表明,该方法能在多种MLLMs中持续带来显著的性能提升。基准数据与代码已开源:https://github.com/casiatao/IF-Bench。
自回归扩散模型通过因果帧生成实现了流式交互式长视频生成,但由于误差累积、运动漂移和内容重复等问题,在分钟级时间尺度上保持连贯性仍具挑战。我们从记忆视角切入,将视频合成视为需要协调长短时上下文信息的循环动态过程,提出VideoSSM——一种融合自回归扩散与混合状态空间记忆的长视频模型。状态空间模型作为贯穿整个序列的场景动态演化全局记忆,而上下文窗口则为运动线索和细节提供局部记忆。这种混合设计在避免画面冻结和模式重复的同时保持全局一致性,支持提示词自适应交互,并以序列长度的线性时间实现扩展。在短长程基准测试中,该模型在自回归视频生成器中展现出最先进的时序一致性和运动稳定性,尤其在分钟级尺度上表现出色,能够实现内容多样性及基于提示词的交互控制,从而为长视频生成建立了可扩展的记忆感知框架。
轻量级实时文本转语音系统对于信息无障碍至关重要。然而最高效的TTS模型通常依赖轻量级音素转换器,这些转换器难以应对上下文相关的挑战。相比之下,具有更深层语言理解能力的先进音素转换器往往需要高昂的计算成本,从而无法实现实时性能。 本文研究了G2P辅助TTS系统中音素转换质量与推理速度之间的权衡,提出了一种弥合这一差距的实用框架。我们针对上下文感知音素转换提出轻量化策略,并构建面向服务的TTS架构,将这些模块作为独立服务运行。该设计将重度的上下文感知组件与核心TTS引擎解耦,有效突破延迟瓶颈,使高质量音素转换模型能够实现实时应用。实验结果表明,所提出的系统在保持实时响应能力的同时,显著提升了发音准确性与语言规范性,特别适用于离线及终端设备的TTS应用场景。
为应对鲁棒视觉语言模型(VLM)中鲁棒性与性能的权衡问题,我们发现功能词会导致VLM在跨模态对抗攻击下表现脆弱,据此提出功能词去注意力机制(FDA)以削弱功能词的影响。该机制仿效差分放大器原理,在注意力头内分别计算原始跨注意力与功能词跨注意力,并通过差分消减法削弱后者影响,从而提升VLM的对齐能力与鲁棒性。我们在2个下游任务、3个数据集和3种模型上,针对6种不同攻击方式开展了包含2个前沿基线模型的综合实验。总体而言,在检索任务中,FDA使3个测试模型的攻击成功率平均下降18%/13%/53%,性能损失仅为0.2%/0.3%/0.6%;在视觉定位任务中实现90%的攻击成功率降幅,同时获得0.3%的性能提升。实验从可扩展性、泛化性和零样本性能三个维度验证了FDA的有效性,并辅以深入的消融研究与分析。代码已公开于https://github.com/michaeltian108/FDA。
临床对话呈现出复杂的二元性,既需要自然交流中体现共情的流畅性,又要求遵循循证医学的严谨精确。尽管大语言模型具备前所未有的语言能力,但其依赖反应式无状态处理的架构特性,往往更倾向于概率合理性而非事实准确性。这一结构局限性催生了医疗人工智能从生成式文本预测向智能体自主性的范式转变——模型作为核心推理引擎,能够进行审慎规划并保持持久记忆。相较于现有主要罗列下游应用的综述,本研究从第一性原理出发,剖析支撑这一转变的认知架构。我们提出沿知识来源与智能体目标两条正交轴构建的新型分类法,用以界定临床知识溯源与系统操作范围的对应关系。该框架通过将方法归纳为四大原型(潜在空间临床医生、涌现规划器、接地合成器、可验证工作流自动化器),系统化解析创造力与可靠性之间的内在权衡。针对每种范式,我们逐层解构其在整个认知管道中的技术实现,涵盖战略规划、记忆管理、行动执行、协同合作与进化演进,揭示不同架构选择如何平衡自主性与安全性之间的张力。
近期文本到视频生成技术虽已实现显著的真实感,但在相机运动与朝向的细粒度控制方面仍存挑战。现有方法通常通过相对或模糊的表征来编码相机轨迹,限制了显式几何控制。我们提出GimbalDiffusion框架,该框架基于物理世界坐标系实现相机控制,并以重力作为全局参照。与基于前一帧的相对运动描述不同,我们的方法在绝对坐标系中定义相机轨迹,无需初始参考帧即可实现精确且可解释的相机参数控制。我们利用全景360度视频构建多样化的相机轨迹,远超传统视频数据中主要存在的直线前向运动轨迹。为增强相机引导能力,我们引入零俯仰角条件标注策略,该策略能在相机参数与文本内容冲突时(如相机朝向天空却需生成草地)降低模型对文本的依赖。最后,我们通过重新平衡SpatialVID-HQ数据集建立相机感知视频生成基准,用于广俯仰角变化下的综合评估。这些成果共同提升了文本到视频模型的可控性与鲁棒性,实现了生成框架内精确且重力对齐的相机操控。
由于市场波动剧烈、技术迭代迅速以及协议驱动的收益周期特性,比特币矿机采购需要把握战略时机。尽管挖矿业已发展为资本密集型产业,但关于何时购置新型专用集成电路(ASIC)矿机的指导策略匮乏,现有计算框架亦未解决这一决策难题。本研究通过将硬件采购构建为时间序列分类任务填补该空白,预测一年内购入ASIC矿机能否获得盈利(投资回报率ROI≥1)、边际收益(0<ROI<1)或亏损(ROI≤0)。我们提出MineROI-Net——一种基于Transformer的开源架构,专用于捕捉挖矿收益的多尺度时序特征。基于2015至2024年间发布的20款ASIC矿机在不同市场行情下的数据测试表明,该模型在准确率(83.7%)和宏观F1分数(83.1%)上均优于基于LSTM和TSLANet的基线模型。其经济实用性突出:对亏损区间的检测精确率达93.6%,盈利区间达98.5%,且能有效避免盈利与亏损情景的误判。这些结果表明MineROI-Net为矿机采购时机决策提供了实用的数据驱动工具,有望降低资本密集型挖矿作业的财务风险。模型可通过以下链接获取:https://github.com/AMAAI-Lab/MineROI-Net。