ChatPaper.aiChatPaper

DeepGen 1.0 : Un modèle multimodal unifié léger pour l'avancement de la génération et de l'édition d'images

DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

February 12, 2026
papers.authors: Dianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang
cs.AI

papers.abstract

Les modèles multimodaux unifiés actuels pour la génération et l'édition d'images reposent généralement sur des échelles de paramètres massives (par exemple, >10 milliards), entraînant des coûts d'entraînement prohibitifs et une empreinte de déploiement importante. Dans ce travail, nous présentons DeepGen 1.0, un modèle unifié léger de 5 milliards de paramètres qui atteint des capacités complètes compétitives, voire supérieures, à des modèles beaucoup plus volumineux. Pour surmonter les limitations des modèles compacts en compréhension sémantique et en contrôle granulaire, nous introduisons le *Stacked Channel Bridging* (SCB), un cadre d'alignement profond qui extrait des caractéristiques hiérarchiques de multiples couches d'un modèle de langage visuel (VLM) et les fusionne avec des « tokens de raisonnement » apprenables pour fournir au backbone génératif un guidage structuré et riche en inférences. Nous concevons en outre une stratégie d'entraînement centrée sur les données couvrant trois étapes progressives : (1) un pré-entraînement par alignement sur de vastes ensembles de paires image-texte et de triplets d'édition pour synchroniser les représentations du VLM et du DiT, (2) un réglage fin supervisé conjoint sur un mélange de haute qualité de tâches de génération, d'édition et de raisonnement pour développer des capacités omni-compétentes, et (3) un apprentissage par renforcement avec MR-GRPO, qui exploite un mélange de fonctions de récompense et de signaux de supervision, entraînant des gains substantiels en qualité de génération et en alignement avec les préférences humaines, tout en maintenant une progression d'entraînement stable et en évitant les artefacts visuels. Bien qu'entraîné sur seulement ~50 millions d'échantillons, DeepGen 1.0 atteint des performances leaders sur divers benchmarks, surpassant le HunyuanImage 80B de 28% sur WISE et le Qwen-Image-Edit 27B de 37% sur UniREditBench. En ouvrant le code d'entraînement, les poids et les jeux de données, nous offrons une alternative efficace et performante pour démocratiser la recherche multimodale unifiée.
English
Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.
PDF601February 14, 2026