ChatPaper.aiChatPaper

Uni-ViGU: 확산 기반 비디오 생성기를 통한 통합 비디오 생성 및 이해 방향

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

April 9, 2026
저자: Luozheng Qin, Jia Gong, Qian Qiao, Tianjiao Li, Li Xu, Haoyu Pan, Chao Qu, Zhiyu Tan, Hao Li
cs.AI

초록

시각적 이해와 생성을 통합하는 통합 멀티모달 모델은 근본적인 과제에 직면합니다: 특히 비디오의 경우 시각적 생성이 이해에 비해 훨씬 더 높은 계산 비용을 수반한다는 점입니다. 이러한 불균형은 우리에게 기존 패러다임을 역전시키는 동기를 부여합니다. 즉, 이해 중심의 MLLM(Multimodal Large Language Model)을 확장하여 생성을 지원하는 대신, 우리는 비디오 생성기를 기반 모델로 확장하여 비디오 생성과 이해를 통합하는 프레임워크인 Uni-ViGU를 제안합니다. 우리는 단일 프로세스 내에서 비디오에는 연속 플로우 매칭을, 텍스트에는 이산 플로우 매칭을 수행하는 통합 플로우 방법을 도입하여 일관된 멀티모달 생성을 가능하게 합니다. 또한 생성적 사전 지식(priors)을 보존하면서 텍스트 생성을 위한 경량 레이어로 Transformer 블록을 증강하는 모달리티 기반 MoE(Mixture of Experts) 프레임워크를 제안합니다. 생성 지식을 이해 작업에 재활용하기 위해 우리는 두 단계로 구성된 양방향 학습 메커니즘을 설계합니다: Knowledge Recall(지식 회상)은 학습된 텍스트-비디오 대응 관계를 활용하기 위해 입력 프롬프트를 재구성하고, Capability Refinement(능력 정제)는 세부 캡션에 대한 미세 조정을 통해 판별적인 공유 표현을 확립합니다. 실험 결과, Uni-ViGU는 비디오 생성과 이해 모두에서 경쟁력 있는 성능을 달성하여 생성 중심 아키텍처가 통합 멀티모달 인텔리전스로 가는 확장 가능한 경로임을 입증합니다. 프로젝트 페이지 및 코드: https://fr0zencrane.github.io/uni-vigu-page/.
English
Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.
PDF392April 15, 2026