每日精選AI研究論文及翻譯
尽管多模态大语言模型(MLLMs)在静态图像上展现出卓越的能力,但在理解动态、信息密集的短视频——当今数字领域的主导媒介时,往往表现不足。为弥合这一差距,我们推出了Kwai Keye-VL,一个拥有80亿参数的多模态基础模型,专为在短视频理解中实现领先性能而设计,同时保持强大的通用视觉-语言能力。Keye-VL的开发基于两大核心支柱:一个超过6000亿标记的大规模高质量数据集,其中视频内容占据重要地位;以及一套创新的训练方案。该方案包括一个四阶段预训练过程,以确保视觉与语言的稳固对齐,随后是一个精细的两阶段后训练过程。第一阶段后训练旨在增强如指令跟随等基础能力,而第二阶段则聚焦于激发高级推理。在此第二阶段,一个关键创新是我们提出的五种模式“冷启动”数据混合,涵盖“思考”、“非思考”、“自动思考”、“带图思考”及高质量视频数据,教导模型何时及如何进行推理。随后的强化学习(RL)和对齐步骤进一步提升了这些推理能力,并纠正了如重复输出等异常模型行为。为验证我们的方法,我们进行了广泛的评估,结果显示Keye-VL在公开视频基准测试中达到了业界领先水平,并在通用图像任务上保持高度竞争力(见图1)。此外,我们开发并发布了KC-MMBench,一个专为现实世界短视频场景定制的新基准,Keye-VL在其中展现了显著优势。
动画上色是真实动画产业生产中的关键环节。长篇动画上色具有高昂的人力成本,因此,基于视频生成模型的自动化长篇动画上色研究具有重要价值。现有研究多局限于短期上色,采用局部范式,通过融合重叠特征实现局部片段间的平滑过渡。然而,局部范式忽视了全局信息,难以维持长期色彩一致性。本研究主张,理想的长期色彩一致性可通过动态全局-局部范式实现,即动态提取与当前生成相关的全局色彩一致特征。具体而言,我们提出了LongAnimation这一新颖框架,主要包括SketchDiT、动态全局-局部记忆模块(DGLM)及色彩一致性奖励机制。SketchDiT捕捉混合参考特征以支持DGLM模块。DGLM模块利用长视频理解模型动态压缩全局历史特征,并自适应地将其与当前生成特征融合。为优化色彩一致性,我们引入了色彩一致性奖励机制。在推理阶段,我们提出色彩一致性融合策略以平滑视频片段过渡。在短期(14帧)与长期(平均500帧)动画上的大量实验表明,LongAnimation在开放域动画上色任务中,能有效维持短期与长期的色彩一致性。代码可访问https://cn-makers.github.io/long_animation_web/获取。
我們提出了Depth Anything at Any Condition(DepthAnything-AC),這是一個能夠應對多樣環境條件的基礎單目深度估計(MDE)模型。以往的基礎MDE模型在一般場景中表現出色,但在涉及照明變化、惡劣天氣和傳感器引起失真等挑戰性條件的複雜開放世界環境中表現不佳。為克服數據稀缺和無法從損壞圖像生成高質量偽標籤的挑戰,我們提出了一種無監督一致性正則化微調範式,僅需相對少量的未標記數據。此外,我們提出了空間距離約束,明確要求模型學習圖塊級別的相對關係,從而獲得更清晰的語義邊界和更精確的細節。實驗結果展示了DepthAnything-AC在多樣基準測試中的零樣本能力,包括真實世界的惡劣天氣基準、合成損壞基準和一般基準。 項目頁面:https://ghost233lism.github.io/depthanything-AC-page 代碼:https://github.com/HVision-NKU/DepthAnythingAC
視覺與語言基礎模型在多模態理解、推理及生成方面的顯著進展,激發了將此類智能擴展至物理世界的日益增長的努力,從而推動了視覺-語言-行動(VLA)模型的蓬勃發展。儘管方法看似多樣,我們觀察到現有的VLA模型可統一於一個框架之下:視覺與語言輸入通過一系列VLA模塊處理,生成一系列逐步編碼更為具體且可操作信息的行動令牌,最終產生可執行的行動。我們進一步確定,區分VLA模型的關鍵設計選擇在於行動令牌的構建方式,其可分為語言描述、代碼、功能可供性、軌跡、目標狀態、潛在表示、原始行動及推理。然而,對於行動令牌仍缺乏全面理解,這嚴重阻礙了VLA模型的有效發展並模糊了未來方向。因此,本調查旨在通過行動令牌化的視角對現有VLA研究進行分類與解讀,提煉各類令牌的優勢與局限,並指出改進領域。通過此系統性回顧與分析,我們對VLA模型的更廣泛演變提供了一個綜合展望,強調了尚未充分探索但前景廣闊的方向,並為未來研究貢獻了指導,期望能推動該領域向通用智能更進一步。
我們提出了FreeMorph,這是首個無需調校即可處理不同語義或佈局輸入的圖像變形方法。與現有方法依賴於微調預訓練擴散模型並受時間限制及語義/佈局差異所限不同,FreeMorph無需針對每個實例進行訓練即可實現高保真度的圖像變形。儘管無需調校的方法因其效率和潛力而備受關注,但由於多步去噪過程的非線性特性以及預訓練擴散模型所繼承的偏差,這些方法在保持高質量結果方面面臨挑戰。本文中,我們引入FreeMorph,通過整合兩項關鍵創新來應對這些挑戰。1)我們首先提出了一種具備指導意識的球面插值設計,該設計通過修改自注意力模塊來融入輸入圖像的顯式指導,從而解決身份丟失問題並確保生成序列中的方向性過渡。2)我們進一步引入了一種面向步驟的變化趨勢,該趨勢融合了來自每個輸入圖像的自注意力模塊,以實現尊重兩個輸入的受控且一致的過渡。我們廣泛的評估表明,FreeMorph在性能上超越了現有方法,速度提升了10倍至50倍,並為圖像變形樹立了新的技術標杆。
本文提出了一種基於局部感知的並行解碼方法(Locality-aware Parallel Decoding, LPD),以加速自迴歸圖像生成。傳統的自迴歸圖像生成依賴於下一塊預測,這是一個受內存限制的過程,導致高延遲。現有研究嘗試通過轉向多塊預測來並行化下一塊預測以加速該過程,但僅實現了有限的並行化。為了在保持生成質量的同時實現高度並行化,我們引入了兩項關鍵技術:(1)靈活的並行化自迴歸建模,這是一種新穎的架構,允許任意生成順序和並行化程度。它使用可學習的位置查詢標記來指導目標位置的生成,同時確保並行生成的標記之間的相互可見性,以實現一致的並行解碼。(2)局部感知的生成順序,這是一種新穎的調度策略,通過形成組來最小化組內依賴性並最大化上下文支持,從而提升生成質量。通過這些設計,我們在不影響ImageNet類別條件生成質量的情況下,將生成步驟從256減少到20(256×256分辨率)和1024減少到48(512×512分辨率),並且實現了至少比先前並行化自迴歸模型低3.4倍的延遲。
在生成建模中,面部运动与语音之间的内在联系常被忽视,其中说话头合成与文本转语音(TTS)通常被视为独立任务。本文介绍了JAM-Flow,一个统一框架,能够同时合成并基于面部运动和语音进行条件生成。我们的方法利用了流匹配技术和一种新颖的多模态扩散变换器(MM-DiT)架构,该架构集成了专门的运动-DiT和音频-DiT模块。这些模块通过选择性联合注意力层相连接,并采用了关键架构选择,如时间对齐的位置编码和局部联合注意力掩码,以实现有效的跨模态交互,同时保留各模态的特定优势。通过以修复式目标进行训练,JAM-Flow支持广泛的输入条件——包括文本、参考音频和参考运动——在一个单一、连贯的模型内,促进了诸如从文本生成同步说话头、音频驱动动画等多种任务。JAM-Flow通过为整体音视频合成提供实用解决方案,显著推进了多模态生成建模的发展。项目页面:https://joonghyuk.com/jamflow-web
以往的文本引导视频编辑方法常面临时间不一致性、运动失真以及最为显著的领域转换受限等问题。我们将这些局限归因于编辑过程中对时空像素相关性建模的不足。为解决这一问题,我们提出了STR-Match,一种无需训练的视频编辑算法,它通过我们新颖的STR评分引导的潜在优化,生成视觉吸引力强且时空连贯的视频。该评分通过利用文本到视频(T2V)扩散模型中的二维空间注意力和一维时间模块,捕捉相邻帧间的时空像素相关性,而无需计算成本高昂的三维注意力机制。结合潜在掩码的潜在优化框架,STR-Match生成了时间一致且视觉保真的视频,即使在显著的领域转换下也能保持强劲性能,同时保留源视频的关键视觉属性。大量实验证明,STR-Match在视觉质量和时空一致性方面均优于现有方法。
机器学习的科学应用常依赖于针对特定领域调优的小型专用模型。此类模型虽能取得卓越性能,却缺乏灵活性。基础模型虽具通用性,但在非传统模态及长尾领域上,通常表现不及专用方法。我们提出MARVIS(模态自适应可视化推理),一种无需训练的方法,使小型视觉语言模型也能高精度预测任意数据模态。MARVIS通过将潜在嵌入空间转化为视觉表征,进而利用视觉语言模型的空间与细粒度推理能力,成功解读并运用这些表征。MARVIS采用单一3B参数模型,在视觉、音频、生物及表格数据领域均展现出竞争力,平均超越Gemini 16%,逼近专用方法,且无需暴露个人可识别信息(P.I.I.)或进行任何领域特定训练。我们的代码与数据集已开源,详见https://github.com/penfever/marvis。