Lumos-Nexus: Эффективное частотное связывание с однородным латентным пространством для унифицированных моделей видео

Аннотация

Соединительные унифицированные видеомодели продемонстрировали высокую эффективность в генерации видео по текстовым инструкциям, однако интеграция крупномасштабного генератора высокой точности в единый процесс обучения требует значительных вычислительных ресурсов, что ограничивает достижимое визуальное качество. В связи с этим мы предлагаем Lumos-Nexus — эффективную с точки зрения обучения унифицированную систему генерации видео, которая обеспечивает развитие мощных способностей к рассуждению и генерации при одновременном значительном повышении визуальной точности. Lumos-Nexus использует двухэтапную архитектуру: 1) На этапе обучения только легковесный генератор согласуется с блоком понимания, обучаясь воспринимать семантическое управление на основе рассуждения. 2) На этапе вывода мы внедряем Unified Progressive Frequency Bridging (UPFB) для постепенной передачи генерации мощному предварительно обученному генератору в общем латентном пространстве, что обеспечивает уточнение от грубого к точному и создание высокоточных видео без ущерба для качества рассуждения. Для устранения пробела в бенчмарках генерации видео на основе рассуждения мы представляем VR-Bench, который оценивает способность модели преобразовывать выведенное намерение в связный и семантически соответствующий видеоконтент. Обширные эксперименты показывают, что Lumos-Nexus достигает значительного улучшения визуальной реалистичности и временной когерентности на VBench, одновременно демонстрируя высокую производительность на основе рассуждения на VR-Bench. Код и модели доступны по адресу https://jiazheng-xing.github.io/nexus-lumos-home/.

English

Connector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large high-fidelity generator into the unified training loop is computationally prohibitive, limiting achievable visual quality. We therefore propose Lumos-Nexus, a training-efficient unified video generation framework that facilitates the development of strong reasoning-driven generation capabilities while significantly enhancing visual fidelity. Lumos-Nexus adopts a two-stage design: 1) During training, only a lightweight generator is aligned with the understanding block to learn to take in reasoning-driven semantic control. 2) During inference, we introduce Unified Progressive Frequency Bridging (UPFB) to progressively hand off generation to a high-capacity pretrained generator in the shared latent space, enabling coarse-to-fine refinement and producing high-fidelity videos without compromising reasoning quality. To fill the gap in reasoning-driven video generation benchmarks, we introduce VR-Bench, which assesses a model's capability to translate inferred intent into coherent and semantically aligned video content. Extensive experiments demonstrate that Lumos-Nexus achieves substantial gains in visual realism and temporal coherence on VBench, while exhibiting strong reasoning-based generative performance on VR-Bench. Code and models are available at https://jiazheng-xing.github.io/nexus-lumos-home/.