DeepGen 1.0: Un Modelo Multimodal Unificado y Ligero para el Avance en la Generación y Edición de Imágenes
DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing
February 12, 2026
Autores: Dianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang
cs.AI
Resumen
Los modelos multimodales unificados actuales para generación y edición de imágenes suelen depender de escalas masivas de parámetros (por ejemplo, >10B), lo que conlleva costes de entrenamiento prohibitivos y grandes huellas de despliegue. En este trabajo, presentamos DeepGen 1.0, un modelo unificado ligero de 5B que logra capacidades integrales competitivas o superiores a contrapartes mucho más grandes. Para superar las limitaciones de los modelos compactos en comprensión semántica y control de grano fino, introducimos Stacked Channel Bridging (SCB), un marco de alineación profunda que extrae características jerárquicas de múltiples capas VLM y las fusiona con 'tokens de pensamiento' entrenables para proporcionar al núcleo generativo una guía estructurada y rica en razonamiento. Además, diseñamos una estrategia de entrenamiento centrada en datos que abarca tres etapas progresivas: (1) Pre-entrenamiento de alineación en pares imagen-texto y tripletas de edición a gran escala para sincronizar representaciones VLM y DiT, (2) Ajuste fino supervisado conjunto en una mezcla de alta calidad de tareas de generación, edición y razonamiento para fomentar capacidades omnicomprensivas, y (3) Aprendizaje por refuerzo con MR-GRPO, que aprovecha una mezcla de funciones de recompensa y señales de supervisión, resultando en ganancias sustanciales en calidad de generación y alineación con preferencias humanas, manteniendo un progreso de entrenamiento estable y evitando artefactos visuales. A pesar de ser entrenado con solo ~50M muestras, DeepGen 1.0 logra un rendimiento líder en diversos benchmarks, superando al HunyuanImage de 80B en un 28% en WISE y al Qwen-Image-Edit de 27B en un 37% en UniREditBench. Al hacer de código fuente de entrenamiento, pesos y conjuntos de datos, proporcionamos una alternativa eficiente y de alto rendimiento para democratizar la investigación multimodal unificada.
English
Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.