每日精选AI研究论文及翻译
尽管多模态大语言模型(MLLMs)在静态图像上展现出卓越的能力,但在理解动态、信息密集的短视频——当今数字领域的主导媒介时,它们往往表现不足。为弥合这一差距,我们推出了Kwai Keye-VL,一个拥有80亿参数的多模态基础模型,专为在短视频理解领域实现领先性能而设计,同时保持强大的通用视觉-语言能力。Keye-VL的开发基于两大核心支柱:一个超过6000亿标记、重点突出视频的大规模高质量数据集,以及一套创新的训练方案。该方案包括一个四阶段预训练过程,以确保坚实的视觉-语言对齐,随后是一个精细的两阶段后训练过程。第一阶段后训练强化了如指令跟随等基础能力,而第二阶段则专注于激发高级推理。在此第二阶段,一个关键创新是我们的五模式“冷启动”数据混合策略,涵盖“思考”、“非思考”、“自动思考”、“带图思考”及高质量视频数据,教导模型何时及如何进行推理。随后的强化学习(RL)和对齐步骤进一步增强了这些推理能力,并纠正了模型异常行为,如重复输出。为验证我们的方法,我们进行了广泛评估,结果显示Keye-VL在公开视频基准测试中达到了最先进水平,并在通用图像任务上保持高度竞争力(见图1)。此外,我们开发并发布了KC-MMBench,一个专为现实世界短视频场景定制的新基准,Keye-VL在其中展现出显著优势。
动画上色是实际动画产业生产中的关键环节。长篇动画上色具有高昂的人力成本,因此,基于视频生成模型的自动化长篇动画上色具有重要的研究价值。现有研究局限于短期上色,这些研究采用局部范式,通过融合重叠特征实现局部片段间的平滑过渡。然而,局部范式忽视了全局信息,无法维持长期色彩一致性。在本研究中,我们认为理想的长期色彩一致性可以通过动态的全局-局部范式实现,即动态提取与当前生成相关的全局色彩一致特征。具体而言,我们提出了LongAnimation这一新颖框架,主要包括SketchDiT、动态全局-局部记忆(DGLM)模块和色彩一致性奖励机制。SketchDiT捕捉混合参考特征以支持DGLM模块。DGLM模块利用长视频理解模型动态压缩全局历史特征,并自适应地将其与当前生成特征融合。为了优化色彩一致性,我们引入了色彩一致性奖励机制。在推理阶段,我们提出色彩一致性融合方法以平滑视频片段间的过渡。在短期(14帧)和长期(平均500帧)动画上的大量实验表明,LongAnimation在开放域动画上色任务中有效保持了短期和长期的色彩一致性。代码可在https://cn-makers.github.io/long_animation_web/获取。
我们推出了Depth Anything at Any Condition(DepthAnything-AC),这是一个基础的单目深度估计(MDE)模型,能够应对多样化的环境条件。以往的基础MDE模型在一般场景下表现卓越,但在包含复杂开放世界环境的挑战性条件下,如光照变化、恶劣天气及传感器引起的失真,则表现欠佳。为克服数据稀缺及从受损图像生成高质量伪标签的难题,我们提出了一种无监督一致性正则化微调范式,仅需相对少量的未标注数据。此外,我们引入了空间距离约束,明确促使模型学习块级相对关系,从而获得更清晰的语义边界和更精确的细节。实验结果表明,DepthAnything-AC在包括真实世界恶劣天气基准、合成失真基准及通用基准在内的多样化测试集上展现了卓越的零样本能力。 项目页面:https://ghost233lism.github.io/depthanything-AC-page 代码仓库:https://github.com/HVision-NKU/DepthAnythingAC
视觉与语言基础模型在多模态理解、推理及生成领域的显著进展,激发了将这些智能扩展至物理世界的广泛努力,推动了视觉-语言-动作(VLA)模型的蓬勃发展。尽管方法看似多样,我们观察到当前VLA模型可统一于一个框架之下:视觉与语言输入通过一系列VLA模块处理,生成一系列动作令牌,这些令牌逐步编码更为具体且可执行的信息,最终产生可执行动作。我们进一步发现,区分VLA模型的关键设计选择在于动作令牌的构建方式,其可归类为语言描述、代码、功能、轨迹、目标状态、潜在表示、原始动作及推理。然而,关于动作令牌的全面理解仍显不足,严重阻碍了VLA模型的有效发展并模糊了未来方向。因此,本综述旨在通过动作令牌化的视角对现有VLA研究进行分类与解读,提炼各类令牌的优势与局限,并指出改进空间。通过这一系统性回顾与分析,我们为VLA模型的更广泛演进提供了综合展望,强调了尚未充分探索但极具潜力的方向,并为未来研究贡献了指导,期望推动该领域向通用智能迈进。
我们提出了FreeMorph,这是首个无需调优即可处理不同语义或布局输入图像的变形方法。与现有方法依赖微调预训练扩散模型并受限于时间约束及语义/布局差异不同,FreeMorph无需针对每个实例进行训练,便能实现高保真图像变形。尽管无需调优的方法因其高效性和潜力而备受关注,但由于多步去噪过程的非线性特性以及预训练扩散模型所继承的偏差,它们在保持高质量结果方面面临挑战。本文中,我们引入FreeMorph,通过整合两项关键创新来应对这些挑战。1) 我们首先提出了一种指导感知的球面插值设计,通过修改自注意力模块,融入输入图像的显式指导,从而解决身份丢失问题,并确保生成序列中的方向性过渡。2) 我们进一步引入了一种面向步骤的变化趋势,融合源自每个输入图像的自注意力模块,以实现尊重双方输入的可控且一致的过渡。广泛的评估表明,FreeMorph在性能上超越现有方法,速度提升10至50倍,为图像变形领域树立了新的标杆。
我们提出了局部感知并行解码(Locality-aware Parallel Decoding, LPD)技术,以加速自回归图像生成。传统的自回归图像生成依赖于下一块预测,这一内存密集型过程导致了高延迟。现有研究尝试通过转向多块预测来并行化下一块预测,从而加速生成过程,但仅实现了有限的并行化。为了在保持生成质量的同时实现高度并行化,我们引入了两项关键技术:(1)灵活并行化自回归建模,这是一种新颖的架构,支持任意生成顺序和并行化程度。它利用可学习的位置查询标记来指导目标位置的生成,同时确保并发生成的标记之间相互可见,以实现一致的并行解码。(2)局部感知生成顺序,这是一种新颖的调度策略,通过分组最小化组内依赖并最大化上下文支持,从而提升生成质量。凭借这些设计,我们在ImageNet类别条件生成任务中,将生成步骤从256减少到20(256×256分辨率)以及从1024减少到48(512×512分辨率),且不牺牲生成质量,同时实现了比以往并行化自回归模型至少3.4倍的延迟降低。
在生成建模中,面部运动与语音之间的内在联系常被忽视,其中说话头部合成与文本转语音(TTS)通常被视为独立任务。本文介绍JAM-Flow,一个统一框架,旨在同时合成并基于面部运动和语音进行条件生成。我们的方法利用流匹配技术和创新的多模态扩散变换器(MM-DiT)架构,集成了专门的运动-DiT和音频-DiT模块。这些模块通过选择性联合注意力层相连,并采用了关键架构设计,如时间对齐的位置编码和局部联合注意力掩码,以实现有效的跨模态交互,同时保留各模态的独特优势。通过以修复式目标进行训练,JAM-Flow支持广泛的输入条件——包括文本、参考音频和参考运动——在单一连贯的模型中,促进了从文本生成同步说话头部、音频驱动动画等多种任务。JAM-Flow通过提供整体音视频合成的实用解决方案,显著推进了多模态生成建模的发展。项目页面:https://joonghyuk.com/jamflow-web
以往基于文本引导的视频编辑方法常面临时间不一致性、运动失真以及最为显著的领域转换受限等问题。我们将这些局限归因于编辑过程中对时空像素关联性建模的不足。为此,我们提出了STR-Match,一种无需训练的视频编辑算法,它通过我们新颖的STR评分引导的潜在优化,生成视觉吸引力强且时空连贯的视频。该评分利用文本到视频(T2V)扩散模型中的二维空间注意力和一维时间模块,捕捉相邻帧间的时空像素关联性,而无需计算成本高昂的三维注意力机制。结合潜在优化框架与潜在掩码,STR-Match能够生成时间一致且视觉保真的视频,即便在显著的领域转换下也能保持强劲性能,同时保留源视频的关键视觉特征。大量实验证明,STR-Match在视觉质量和时空一致性方面均持续超越现有方法。
机器学习在科学领域的应用往往依赖于针对特定领域优化的小型专用模型。这类模型通常表现出色,但缺乏灵活性。基础模型虽具备通用性,但在非传统模态和长尾领域上,其表现通常不及专用方法。我们提出了MARVIS(面向可视化的模态自适应推理),这是一种无需训练的方法,使小型视觉语言模型也能高精度预测任意数据模态。MARVIS将潜在嵌入空间转化为视觉表示,进而利用视觉语言模型的空间与细粒度推理能力,成功解读并运用这些表示。MARVIS仅使用一个30亿参数的模型,在视觉、音频、生物和表格数据领域均取得了具有竞争力的性能,平均超越Gemini模型16%,且无需暴露个人可识别信息(P.I.I.)或进行任何领域特定训练。我们的代码和数据集已在https://github.com/penfever/marvis开源。