ChatPaper.aiChatPaper

DeepGen 1.0:画像生成と編集を進化させる軽量統合マルチモーダルモデル

DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

February 12, 2026
著者: Dianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang
cs.AI

要旨

現在の画像生成・編集における統一マルチモーダルモデルは、通常、大規模なパラメータ数(例:>100億)に依存しており、膨大な学習コストと配備時のリソースを必要としています。本研究では、軽量な50億パラメータの統一モデルDeepGen 1.0を提案します。このモデルは、より大規模なモデルに匹敵する、あるいはそれを上回る総合的な能力を達成しています。コンパクトモデルにおける意味理解と細粒度制御の限界を克服するため、我々はStacked Channel Bridging(SCB)を導入しました。これは、VLMの複数層から階層的特徴を抽出し、学習可能な「思考トークン」と融合させる深層アライメントフレームワークであり、生成バックボーンに構造化され推論豊かなガイダンスを提供します。さらに、3段階のデータ中心学習戦略を設計しました:(1)大規模画像-テキストペアと編集トリプレットによるアライメント事前学習でVLMとDiTの表現を同期、(2)生成・編集・推論タスクの高品質混合データによる共同教師ありファインチューニングで全能力を育成、(3)複数の報酬関数と教師信号を活用するMR-GRPOによる強化学習で、生成品質と人間の嗜好への適合性を大幅に向上させつつ、安定した学習進行と視覚的アーティファクトの回避を実現。約5,000万サンプルのみで学習したにも関わらず、DeepGen 1.0は多様なベンチマークで最先端の性能を達成し、WISEでは800億パラメータのHunyuanImageを28%、UniREditBenchでは270億パラメータのQwen-Image-Editを37%上回りました。学習コード、重み、データセットをオープンソース化することで、統一マルチモーダル研究の民主化に向けた効率的で高性能な選択肢を提供します。
English
Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.
PDF601February 14, 2026