ChatPaper.aiChatPaper

Lumos-Nexus: 비디오 통합 모델을 위한 동질적 잠재 공간 기반의 효율적 주파수 브리징

Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models

May 29, 2026
저자: Jiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu, Yujie Wei, Fei Du, Hai Ci, Tao Feng, Jiasheng Tang, Weihua Chen, Fan Wang, Yong Liu
cs.AI

초록

커넥터 기반 통합 비디오 모델은 명령 기반 비디오 합성에서 강력한 성능을 입증했지만, 대규모 고충실도 생성기를 통합 학습 루프에 포함하는 것은 계산적으로 부담스러워 실현 가능한 시각적 품질에 한계가 있다. 따라서 우리는 Lumos-Nexus를 제안한다. 이는 학습 효율적인 통합 비디오 생성 프레임워크로, 강력한 추론 기반 생성 능력을 개발하면서 시각적 충실도를 크게 향상시킨다. Lumos-Nexus는 두 단계 설계를 채택한다: 1) 학습 중에는 경량 생성기만 이해 블록과 정렬되어 추론 기반 의미 제어를 입력받는 법을 학습한다. 2) 추론 중에는 UPFB(Unified Progressive Frequency Bridging)를 도입하여 공유 잠재 공간에서 점진적으로 생성을 고용량 사전 학습 생성기로 이관함으로써, 대략적에서 세밀한 정제(coarse-to-fine refinement)를 가능하게 하여 추론 품질을 손상시키지 않으면서 고충실도 비디오를 생성한다. 추론 기반 비디오 생성 벤치마크의 공백을 메우기 위해, 우리는 VR-Bench를 도입한다. 이는 모델이 추론된 의도를 일관되고 의미적으로 정렬된 비디오 콘텐츠로 변환하는 능력을 평가한다. 광범위한 실험을 통해 Lumos-Nexus가 VBench에서 시각적 사실성과 시간적 일관성에서 상당한 향상을 달성하고, VR-Bench에서 강력한 추론 기반 생성 성능을 보여줌을 입증한다. 코드와 모델은 https://jiazheng-xing.github.io/nexus-lumos-home/에서 확인할 수 있다.
English
Connector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large high-fidelity generator into the unified training loop is computationally prohibitive, limiting achievable visual quality. We therefore propose Lumos-Nexus, a training-efficient unified video generation framework that facilitates the development of strong reasoning-driven generation capabilities while significantly enhancing visual fidelity. Lumos-Nexus adopts a two-stage design: 1) During training, only a lightweight generator is aligned with the understanding block to learn to take in reasoning-driven semantic control. 2) During inference, we introduce Unified Progressive Frequency Bridging (UPFB) to progressively hand off generation to a high-capacity pretrained generator in the shared latent space, enabling coarse-to-fine refinement and producing high-fidelity videos without compromising reasoning quality. To fill the gap in reasoning-driven video generation benchmarks, we introduce VR-Bench, which assesses a model's capability to translate inferred intent into coherent and semantically aligned video content. Extensive experiments demonstrate that Lumos-Nexus achieves substantial gains in visual realism and temporal coherence on VBench, while exhibiting strong reasoning-based generative performance on VR-Bench. Code and models are available at https://jiazheng-xing.github.io/nexus-lumos-home/.