Lumos-Nexus: Efficiënte Frequentieoverbrugging met Homogene Latente Ruimte voor Geünificeerde Videomodellen

Samenvatting

Op connector gebaseerde uniforme videomodellen hebben een sterke capaciteit getoond voor instructiegestuurde videosynthese, maar het integreren van een grote, hooggetrouwe generator in de uniforme trainingslus is computationeel prohibitief, wat de haalbare visuele kwaliteit beperkt. Daarom stellen we Lumos-Nexus voor, een trainingsefficiënt uniform videogeneratiekader dat de ontwikkeling van sterke redeneringsgestuurde generatiecapaciteiten mogelijk maakt terwijl de visuele getrouwheid aanzienlijk wordt verbeterd. Lumos-Nexus hanteert een tweefasenontwerp: 1) Tijdens de training wordt alleen een lichtgewicht generator afgestemd op het begripsblok om te leren redeneringsgestuurde semantische sturing te verwerken. 2) Tijdens de inferentie introduceren we Unified Progressive Frequency Bridging (UPFB) om de generatie stapsgewijs over te dragen aan een hoogcapacitieve voorgetrainde generator in de gedeelde latente ruimte, waardoor grof-naar-fijn verfijning mogelijk wordt en hooggetrouwe video's worden geproduceerd zonder concessies te doen aan de redeneringskwaliteit. Om het gebrek aan benchmarks voor redeneringsgestuurde videogeneratie op te vullen, introduceren we VR-Bench, dat het vermogen van een model beoordeelt om geïnterpreteerde intentie te vertalen naar coherente en semantisch afgestemde video-inhoud. Uitgebreide experimenten tonen aan dat Lumos-Nexus aanzienlijke winst boekt in visuele realisme en temporele coherentie op VBench, terwijl het sterke redeneringsgebaseerde generatieprestaties levert op VR-Bench. Code en modellen zijn beschikbaar op https://jiazheng-xing.github.io/nexus-lumos-home/.

English

Connector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large high-fidelity generator into the unified training loop is computationally prohibitive, limiting achievable visual quality. We therefore propose Lumos-Nexus, a training-efficient unified video generation framework that facilitates the development of strong reasoning-driven generation capabilities while significantly enhancing visual fidelity. Lumos-Nexus adopts a two-stage design: 1) During training, only a lightweight generator is aligned with the understanding block to learn to take in reasoning-driven semantic control. 2) During inference, we introduce Unified Progressive Frequency Bridging (UPFB) to progressively hand off generation to a high-capacity pretrained generator in the shared latent space, enabling coarse-to-fine refinement and producing high-fidelity videos without compromising reasoning quality. To fill the gap in reasoning-driven video generation benchmarks, we introduce VR-Bench, which assesses a model's capability to translate inferred intent into coherent and semantically aligned video content. Extensive experiments demonstrate that Lumos-Nexus achieves substantial gains in visual realism and temporal coherence on VBench, while exhibiting strong reasoning-based generative performance on VR-Bench. Code and models are available at https://jiazheng-xing.github.io/nexus-lumos-home/.