Lumos-Nexus: Effiziente Frequenzüberbrückung mit homogenem latenten Raum für videounifizierte Modelle

Zusammenfassung

Verbinderbasierte einheitliche Videomodelle haben eine starke Leistungsfähigkeit in der anweisungsgestützten Videosynthese gezeigt, aber die Integration eines großen, hochgetreuen Generators in die einheitliche Trainingsschleife ist rechenintensiv und schränkt die erreichbare visuelle Qualität ein. Daher schlagen wir Lumos-Nexus vor, ein trainingseffizientes einheitliches Videogenerierungs-Framework, das die Entwicklung starker, reasoning-gesteuerter Generierungsfähigkeiten ermöglicht und gleichzeitig die visuelle Treue deutlich verbessert. Lumos-Nexus verwendet ein zweistufiges Design: 1) Während des Trainings wird nur ein leichter Generator mit dem Verständnisblock abgestimmt, um zu lernen, reasoning-gesteuerte semantische Steuerung zu übernehmen. 2) Während der Inferenz führen wir Unified Progressive Frequency Bridging (UPFB) ein, um die Generierung schrittweise an einen leistungsstarken, vortrainierten Generator im gemeinsamen latenten Raum zu übergeben, was eine Grob-zu-Fein-Verfeinerung ermöglicht und hochgetreue Videos ohne Einbußen bei der Reasoning-Qualität erzeugt. Um die Lücke bei Benchmarks für reasoning-gesteuerte Videogenerierung zu schließen, führen wir VR-Bench ein, der die Fähigkeit eines Modells bewertet, abgeleitete Absichten in kohärente und semantisch passende Videoinhalte zu übersetzen. Umfangreiche Experimente zeigen, dass Lumos-Nexus auf VBench erhebliche Verbesserungen der visuellen Realität und zeitlichen Kohärenz erzielt und auf VR-Bench eine starke reasoning-basierte Generierungsleistung aufweist. Code und Modelle sind verfügbar unter https://jiazheng-xing.github.io/nexus-lumos-home/.

English

Connector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large high-fidelity generator into the unified training loop is computationally prohibitive, limiting achievable visual quality. We therefore propose Lumos-Nexus, a training-efficient unified video generation framework that facilitates the development of strong reasoning-driven generation capabilities while significantly enhancing visual fidelity. Lumos-Nexus adopts a two-stage design: 1) During training, only a lightweight generator is aligned with the understanding block to learn to take in reasoning-driven semantic control. 2) During inference, we introduce Unified Progressive Frequency Bridging (UPFB) to progressively hand off generation to a high-capacity pretrained generator in the shared latent space, enabling coarse-to-fine refinement and producing high-fidelity videos without compromising reasoning quality. To fill the gap in reasoning-driven video generation benchmarks, we introduce VR-Bench, which assesses a model's capability to translate inferred intent into coherent and semantically aligned video content. Extensive experiments demonstrate that Lumos-Nexus achieves substantial gains in visual realism and temporal coherence on VBench, while exhibiting strong reasoning-based generative performance on VR-Bench. Code and models are available at https://jiazheng-xing.github.io/nexus-lumos-home/.