Lumos-Nexus: Puente Eficiente de Frecuencias con Espacio Latente Homogéneo para Modelos Unificados de Video

Resumen

Los modelos unificados de video basados en conectores han demostrado una gran capacidad en la síntesis de video guiada por instrucciones, pero integrar un generador de alta fidelidad en el bucle de entrenamiento unificado resulta computacionalmente prohibitivo, lo que limita la calidad visual alcanzable. Por ello, proponemos Lumos-Nexus, un marco unificado de generación de video eficiente en términos de entrenamiento que facilita el desarrollo de capacidades de generación sólidas impulsadas por razonamiento, al tiempo que mejora significativamente la fidelidad visual. Lumos-Nexus adopta un diseño de dos etapas: 1) Durante el entrenamiento, solo un generador ligero se alinea con el bloque de comprensión para aprender a recibir control semántico basado en razonamiento. 2) Durante la inferencia, introducimos el Puente de Frecuencia Progresivo Unificado (UPFB, por sus siglas en inglés) para transferir progresivamente la generación a un generador preentrenado de alta capacidad en el espacio latente compartido, permitiendo un refinamiento de grueso a fino y produciendo videos de alta fidelidad sin comprometer la calidad del razonamiento. Para llenar el vacío en los puntos de referencia de generación de video impulsada por razonamiento, presentamos VR-Bench, que evalúa la capacidad de un modelo para traducir la intención inferida en contenido de video coherente y alineado semánticamente. Experimentos exhaustivos demuestran que Lumos-Nexus logra ganancias sustanciales en realismo visual y coherencia temporal en VBench, al mismo tiempo que exhibe un sólido rendimiento generativo basado en razonamiento en VR-Bench. El código y los modelos están disponibles en https://jiazheng-xing.github.io/nexus-lumos-home/.

English

Connector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large high-fidelity generator into the unified training loop is computationally prohibitive, limiting achievable visual quality. We therefore propose Lumos-Nexus, a training-efficient unified video generation framework that facilitates the development of strong reasoning-driven generation capabilities while significantly enhancing visual fidelity. Lumos-Nexus adopts a two-stage design: 1) During training, only a lightweight generator is aligned with the understanding block to learn to take in reasoning-driven semantic control. 2) During inference, we introduce Unified Progressive Frequency Bridging (UPFB) to progressively hand off generation to a high-capacity pretrained generator in the shared latent space, enabling coarse-to-fine refinement and producing high-fidelity videos without compromising reasoning quality. To fill the gap in reasoning-driven video generation benchmarks, we introduce VR-Bench, which assesses a model's capability to translate inferred intent into coherent and semantically aligned video content. Extensive experiments demonstrate that Lumos-Nexus achieves substantial gains in visual realism and temporal coherence on VBench, while exhibiting strong reasoning-based generative performance on VR-Bench. Code and models are available at https://jiazheng-xing.github.io/nexus-lumos-home/.