ChatPaper.aiChatPaper

DeepGen 1.0: 이미지 생성 및 편집 발전을 위한 경량 통합 멀티모달 모델

DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

February 12, 2026
저자: Dianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang
cs.AI

초록

현재 이미지 생성 및 편집을 위한 통합 멀티모달 모델들은 일반적으로 대규모 매개변수 규모(예: >100억)에 의존하며, 이는 과도한 학습 비용과 배포 부담을 수반합니다. 본 연구에서는 경량 5B 규모의 통합 모델인 DeepGen 1.0을 제시하며, 이 모델은 훨씬 더 큰 규모의 모델들과 견줄 만하거나 이를 능가하는 포괄적인 성능을 달성합니다. 컴팩트 모델의 의미론적 이해와 세밀한 제어 한계를 극복하기 위해, 우리는 Stacked Channel Bridging(SCB)을 도입했습니다. 이는 심층 정렬 프레임워크로, 다중 VLM 계층에서 계층적 특징을 추출하고 학습 가능한 '생각 토큰'과 융합하여 생성 백본에 구조화되고 추론이 풍부한 지침을 제공합니다. 또한 데이터 중심의 학습 전략을 3단계에 걸쳐 설계했습니다: (1) 대규모 이미지-텍스트 쌍과 편집 삼중항에 대한 정렬 사전 학습을 통해 VLM과 DiT 표현을 동기화하고, (2) 생성, 편집, 추론 작업이 혼합된 고품질 데이터로 공동 지도 미세 조정을 수행하여 전반적 역량을 배양하며, (3) 혼합 보상 함수와 감독 신호를 활용하는 MR-GRPO 강화 학습을 적용하여 시각적 결함 없이 안정적인 학습 진행을 유지하면서 생성 품질과 인간 선호도 정렬에서 상당한 향상을 달성했습니다. 약 5천만 개의 샘플만으로 학습했음에도 불구하고, DeepGen 1.0은 다양한 벤치마크에서 선도적인 성능을 보여, WISE에서 80B HunyuanImage를 28% 앞섰으며 UniREditBench에서 27B Qwen-Image-Edit를 37% 능가했습니다. 학습 코드, 가중치, 데이터셋을 공개함으로써 효율적이고 고성능인 대안을 제공하여 통합 멀티모달 연구의 민주화를 도모합니다.
English
Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.
PDF601February 14, 2026