ChatPaper.aiChatPaper

Lumos-Nexus: Эффективное частотное связывание с однородным латентным пространством для унифицированных моделей видео

Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models

May 29, 2026
Авторы: Jiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu, Yujie Wei, Fei Du, Hai Ci, Tao Feng, Jiasheng Tang, Weihua Chen, Fan Wang, Yong Liu
cs.AI

Аннотация

Соединительные унифицированные видеомодели продемонстрировали высокую эффективность в генерации видео по текстовым инструкциям, однако интеграция крупномасштабного генератора высокой точности в единый процесс обучения требует значительных вычислительных ресурсов, что ограничивает достижимое визуальное качество. В связи с этим мы предлагаем Lumos-Nexus — эффективную с точки зрения обучения унифицированную систему генерации видео, которая обеспечивает развитие мощных способностей к рассуждению и генерации при одновременном значительном повышении визуальной точности. Lumos-Nexus использует двухэтапную архитектуру: 1) На этапе обучения только легковесный генератор согласуется с блоком понимания, обучаясь воспринимать семантическое управление на основе рассуждения. 2) На этапе вывода мы внедряем Unified Progressive Frequency Bridging (UPFB) для постепенной передачи генерации мощному предварительно обученному генератору в общем латентном пространстве, что обеспечивает уточнение от грубого к точному и создание высокоточных видео без ущерба для качества рассуждения. Для устранения пробела в бенчмарках генерации видео на основе рассуждения мы представляем VR-Bench, который оценивает способность модели преобразовывать выведенное намерение в связный и семантически соответствующий видеоконтент. Обширные эксперименты показывают, что Lumos-Nexus достигает значительного улучшения визуальной реалистичности и временной когерентности на VBench, одновременно демонстрируя высокую производительность на основе рассуждения на VR-Bench. Код и модели доступны по адресу https://jiazheng-xing.github.io/nexus-lumos-home/.
English
Connector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large high-fidelity generator into the unified training loop is computationally prohibitive, limiting achievable visual quality. We therefore propose Lumos-Nexus, a training-efficient unified video generation framework that facilitates the development of strong reasoning-driven generation capabilities while significantly enhancing visual fidelity. Lumos-Nexus adopts a two-stage design: 1) During training, only a lightweight generator is aligned with the understanding block to learn to take in reasoning-driven semantic control. 2) During inference, we introduce Unified Progressive Frequency Bridging (UPFB) to progressively hand off generation to a high-capacity pretrained generator in the shared latent space, enabling coarse-to-fine refinement and producing high-fidelity videos without compromising reasoning quality. To fill the gap in reasoning-driven video generation benchmarks, we introduce VR-Bench, which assesses a model's capability to translate inferred intent into coherent and semantically aligned video content. Extensive experiments demonstrate that Lumos-Nexus achieves substantial gains in visual realism and temporal coherence on VBench, while exhibiting strong reasoning-based generative performance on VR-Bench. Code and models are available at https://jiazheng-xing.github.io/nexus-lumos-home/.