Lumos-Nexus: Ponte Eficiente de Frequência com Espaço Latente Homogêneo para Modelos Unificados de Vídeo

Resumo

Modelos de vídeo unificados baseados em conectores demonstraram forte capacidade na síntese de vídeo baseada em instruções, mas integrar um grande gerador de alta fidelidade no ciclo de treinamento unificado é computacionalmente proibitivo, limitando a qualidade visual alcançável. Propomos, portanto, o Lumos-Nexus, uma estrutura de geração de vídeo unificada e eficiente em termos de treinamento que facilita o desenvolvimento de fortes capacidades de geração orientadas por raciocínio, melhorando significativamente a fidelidade visual. O Lumos-Nexus adota um design em duas etapas: 1) Durante o treinamento, apenas um gerador leve é alinhado com o bloco de compreensão para aprender a receber controle semântico orientado por raciocínio. 2) Durante a inferência, introduzimos o Unified Progressive Frequency Bridging (UPFB) para transferir progressivamente a geração para um gerador pré-treinado de alta capacidade no espaço latente compartilhado, permitindo refinamento de grosso a fino e produzindo vídeos de alta fidelidade sem comprometer a qualidade do raciocínio. Para preencher a lacuna em benchmarks de geração de vídeo orientada por raciocínio, introduzimos o VR-Bench, que avalia a capacidade de um modelo de traduzir intenção inferida em conteúdo de vídeo coerente e semanticamente alinhado. Experimentações extensas demonstram que o Lumos-Nexus alcança ganhos substanciais em realismo visual e coerência temporal no VBench, ao mesmo tempo que exibe forte desempenho generativo baseado em raciocínio no VR-Bench. Código e modelos estão disponíveis em https://jiazheng-xing.github.io/nexus-lumos-home/.

English

Connector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large high-fidelity generator into the unified training loop is computationally prohibitive, limiting achievable visual quality. We therefore propose Lumos-Nexus, a training-efficient unified video generation framework that facilitates the development of strong reasoning-driven generation capabilities while significantly enhancing visual fidelity. Lumos-Nexus adopts a two-stage design: 1) During training, only a lightweight generator is aligned with the understanding block to learn to take in reasoning-driven semantic control. 2) During inference, we introduce Unified Progressive Frequency Bridging (UPFB) to progressively hand off generation to a high-capacity pretrained generator in the shared latent space, enabling coarse-to-fine refinement and producing high-fidelity videos without compromising reasoning quality. To fill the gap in reasoning-driven video generation benchmarks, we introduce VR-Bench, which assesses a model's capability to translate inferred intent into coherent and semantically aligned video content. Extensive experiments demonstrate that Lumos-Nexus achieves substantial gains in visual realism and temporal coherence on VBench, while exhibiting strong reasoning-based generative performance on VR-Bench. Code and models are available at https://jiazheng-xing.github.io/nexus-lumos-home/.