Lumos-Nexus : Pontage fréquentiel efficace avec espace latent homogène pour les modèles vidéo unifiés

Résumé

Les modèles vidéo unifiés basés sur des connecteurs ont démontré une capacité robuste pour la synthèse vidéo ancrée dans des instructions, mais l'intégration d'un générateur haute-fidélité de grande taille dans la boucle d'entraînement unifiée est prohibitif sur le plan computationnel, limitant la qualité visuelle atteignable. Nous proposons donc Lumos-Nexus, un cadre de génération vidéo unifiée efficace en termes d'entraînement, qui facilite le développement de capacités de génération guidée par le raisonnement tout en améliorant significativement la fidélité visuelle. Lumos-Nexus adopte une conception en deux étapes : 1) Pendant l'entraînement, seul un générateur léger est aligné avec le bloc de compréhension pour apprendre à intégrer un contrôle sémantique guidé par le raisonnement. 2) Pendant l'inférence, nous introduisons le Pontage Progressif Unifié des Fréquences (UPFB) pour transférer progressivement la génération à un générateur pré-entraîné à haute capacité dans l'espace latent partagé, permettant un raffinement du grossier au fin et produisant des vidéos haute-fidélité sans compromettre la qualité du raisonnement. Pour combler le manque de références en génération vidéo guidée par le raisonnement, nous présentons VR-Bench, qui évalue la capacité d'un modèle à traduire une intention inférée en contenu vidéo cohérent et sémantiquement aligné. Des expériences extensives montrent que Lumos-Nexus obtient des gains substantiels en réalisme visuel et en cohérence temporelle sur VBench, tout en démontrant des performances génératives solides basées sur le raisonnement sur VR-Bench. Le code et les modèles sont disponibles à l'adresse https://jiazheng-xing.github.io/nexus-lumos-home/.

English

Connector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large high-fidelity generator into the unified training loop is computationally prohibitive, limiting achievable visual quality. We therefore propose Lumos-Nexus, a training-efficient unified video generation framework that facilitates the development of strong reasoning-driven generation capabilities while significantly enhancing visual fidelity. Lumos-Nexus adopts a two-stage design: 1) During training, only a lightweight generator is aligned with the understanding block to learn to take in reasoning-driven semantic control. 2) During inference, we introduce Unified Progressive Frequency Bridging (UPFB) to progressively hand off generation to a high-capacity pretrained generator in the shared latent space, enabling coarse-to-fine refinement and producing high-fidelity videos without compromising reasoning quality. To fill the gap in reasoning-driven video generation benchmarks, we introduce VR-Bench, which assesses a model's capability to translate inferred intent into coherent and semantically aligned video content. Extensive experiments demonstrate that Lumos-Nexus achieves substantial gains in visual realism and temporal coherence on VBench, while exhibiting strong reasoning-based generative performance on VR-Bench. Code and models are available at https://jiazheng-xing.github.io/nexus-lumos-home/.