DeepGen 1.0: Облегченная унифицированная мультимодальная модель для продвижения в области генерации и редактирования изображений
DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing
February 12, 2026
Авторы: Dianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang
cs.AI
Аннотация
Современные унифицированные мультимодальные модели для генерации и редактирования изображений обычно требуют масштабных параметров (например, >10 млрд), что влечет за собой prohibitive затраты на обучение и развертывание. В данной работе мы представляем DeepGen 1.0 — облегченную 5-миллиардную унифицированную модель, которая демонстрирует комплексные возможности, конкурентоспособные или превосходящие значительно более крупные аналоги. Для преодоления ограничений компактных моделей в семантическом понимании и детализированном управлении мы предлагаем Stacked Channel Bridging (SCB) — глубокую архитектуру согласования, которая извлекает иерархические признаки из нескольких слоев VLM и объединяет их с обучаемыми «мыслящими токенами», предоставляя генеративной основе структурированное, обогащенное логикой руководство. Дополнительно мы разработали ориентированную на данные стратегию обучения, охватывающую три прогрессивных этапа: (1) предварительное обучение согласованию на крупных наборах пар «изображение-текст» и тройках редактирования для синхронизации представлений VLM и DiT; (2) совместную тонкую настройку с учителем на высококачественной смеси задач генерации, редактирования и логического вывода для развития универсальных способностей; и (3) обучение с подкреплением с помощью MR-GRPO, которое использует комбинацию функций вознаграждения и сигналов контроля, что приводит к значительному улучшению качества генерации и соответствия человеческим предпочтениям при сохранении стабильного прогресса обучения и отсутствии визуальных артефактов. Несмотря на обучение всего на ~50 млн примеров, DeepGen 1.0 демонстрирует лидирующие результаты в разнообразных бенчмарках, превосходя 80-миллиардную HunyuanImage на 28% в WISE и 27-миллиардную Qwen-Image-Edit на 37% в UniREditBench. Открывая исходный код обучения, веса и наборы данных, мы предлагаем эффективную высокопроизводительную альтернативу для демократизации унифицированных мультимодальных исследований.
English
Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.