ChatPaper.aiChatPaper

Uni-ViGU:拡散モデルベースのビデオ生成器による統合的なビデオ生成と理解に向けて

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

April 9, 2026
著者: Luozheng Qin, Jia Gong, Qian Qiao, Tianjiao Li, Li Xu, Haoyu Pan, Chao Qu, Zhiyu Tan, Hao Li
cs.AI

要旨

視覚理解と生成を統合するマルチモーダルモデルには根本的な課題がある。特に映像において、視覚生成は理解に比べて計算コストが大幅に高い。この不均衡を解決するため、我々は従来のパラダイムを逆転させる:理解中心のMLLMを拡張して生成をサポートするのではなく、映像生成器を基盤として拡張することで映像生成と理解を統一するフレームワーク「Uni-ViGU」を提案する。単一プロセス内で映像の連続的フローマッチングとテキストの離散的フローマッチングを実行する統一フロー法を導入し、一貫性のあるマルチモーダル生成を実現する。さらに、生成の事前知識を保持しつつテキスト生成のための軽量層をTransformerブロックに追加する、モダリティ駆動型のMoEベースフレームワークを提案する。生成知識を理解タスクに転用するため、双方向トレーニングメカニズムを2段階で設計する:Knowledge Recallでは入力プロンプトを再構築して学習済みのテキスト-映像対応関係を活用し、Capability Refinementでは詳細なキャプションで微調整を行い識別可能な共有表現を確立する。実験により、Uni-ViGUが映像生成と理解の両方で競合する性能を達成し、生成中心アーキテクチャが統一マルチモーダル知能へのスケーラブルな道筋であることを実証する。プロジェクトページとコード:https://fr0zencrane.github.io/uni-vigu-page/。
English
Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.
PDF392April 15, 2026