ChatPaper.aiChatPaper

Lumos-Nexus: 映像統一モデルのための均質潜在空間を用いた効率的な周波数ブリッジング

Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models

May 29, 2026
著者: Jiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu, Yujie Wei, Fei Du, Hai Ci, Tao Feng, Jiasheng Tang, Weihua Chen, Fan Wang, Yong Liu
cs.AI

要旨

コネクタベースの動画統合モデルは、指示に基づく動画合成において高い能力を示しているが、大規模な高忠実度生成器を統合学習ループに組み込むことは計算的に非現実的であり、達成可能な視覚品質に制約が生じる。そこで我々は、Lumos-Nexusを提案する。これは学習効率の高い統合動画生成フレームワークであり、強い推論駆動型生成能力の開発を促進しつつ、視覚的忠実度を大幅に向上させる。Lumos-Nexusは2段階の設計を採用する。1) 学習時には、軽量生成器のみを理解ブロックと整合させ、推論駆動型の意味制御を入力として受け取る方法を学習する。2) 推論時には、統合的プログレッシブ周波数ブリッジング(UPFB)を導入し、共有潜在空間内で生成を段階的に高容量の事前学習済み生成器に引き渡すことで、粗密精細化を実現し、推論品質を損なうことなく高忠実度動画を生成する。推論駆動型動画生成のベンチマークにおける不足を補うため、我々はVR-Benchを導入する。これは、モデルが推論された意図を一貫性のある意味的に整合した動画コンテンツに変換する能力を評価するものである。広範な実験により、Lumos-NexusはVBenchにおいて視覚的リアリズムと時間的一貫性で大幅な向上を達成し、VR-Benchにおいても強力な推論ベースの生成性能を示すことが実証された。コードとモデルはhttps://jiazheng-xing.github.io/nexus-lumos-home/で公開している。
English
Connector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large high-fidelity generator into the unified training loop is computationally prohibitive, limiting achievable visual quality. We therefore propose Lumos-Nexus, a training-efficient unified video generation framework that facilitates the development of strong reasoning-driven generation capabilities while significantly enhancing visual fidelity. Lumos-Nexus adopts a two-stage design: 1) During training, only a lightweight generator is aligned with the understanding block to learn to take in reasoning-driven semantic control. 2) During inference, we introduce Unified Progressive Frequency Bridging (UPFB) to progressively hand off generation to a high-capacity pretrained generator in the shared latent space, enabling coarse-to-fine refinement and producing high-fidelity videos without compromising reasoning quality. To fill the gap in reasoning-driven video generation benchmarks, we introduce VR-Bench, which assesses a model's capability to translate inferred intent into coherent and semantically aligned video content. Extensive experiments demonstrate that Lumos-Nexus achieves substantial gains in visual realism and temporal coherence on VBench, while exhibiting strong reasoning-based generative performance on VR-Bench. Code and models are available at https://jiazheng-xing.github.io/nexus-lumos-home/.