ChatPaper.aiChatPaper

DeepGen 1.0: Een Lichtgewicht Geïntegreerd Multimodaal Model voor de Vooruitgang van Beeldgeneratie en -bewerking

DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

February 12, 2026
Auteurs: Dianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang
cs.AI

Samenvatting

Huidige geünificeerde multimodale modellen voor beeldgeneratie en -bewerking zijn doorgaans afhankelijk van massieve parameterschalen (bijv. >10B), wat exorbitante trainingskosten en implementatievoetafdrukken met zich meebrengt. In dit werk presenteren we DeepGen 1.0, een lichtgewicht 5B-geünificeerd model dat een uitgebreide capaciteit bereikt die concurreert met of grotere tegenhangers overtreft. Om de beperkingen van compacte modellen in semantisch begrip en fijnmazige controle te overwinnen, introduceren we Stacked Channel Bridging (SCB), een diep uitlijningsraamwerk dat hiërarchische kenmerken uit meerdere VLM-lagen extraheert en fuseert met leerbare 'denk-tokens' om de generatieve backbone van gestructureerde, redeneringsrijke begeleiding te voorzien. We ontwerpen verder een data-gecentreerde trainingsstrategie over drie progressieve fasen: (1) Uitlijningsvooropleiding op grootschalige beeld-tekstparen en bewerkingstriplets om VLM- en DiT-representaties te synchroniseren, (2) Gezamenlijke supervised fine-tuning op een hoogwaardig mengsel van generatie-, bewerkings- en redeneertaken om alomvattende capaciteiten te bevorderen, en (3) Versterkend Leren met MR-GRPO, dat gebruikmaakt van een mengsel van beloningsfuncties en supervisiesignalen, wat resulteert in aanzienlijke verbeteringen in generatiekwaliteit en afstemming met menselijke voorkeuren, terwijl stabiele trainingsvoortgang wordt behouden en visuele artefacten worden vermeden. Ondanks training op slechts ~50M samples behaalt DeepGen 1.0 toonaangevende prestaties op diverse benchmarks, waarbij het de 80B HunyuanImage met 28% overtreft op WISE en de 27B Qwen-Image-Edit met 37% op UniREditBench. Door onze trainingscode, gewichten en datasets open source te maken, bieden we een efficiënt, hoogwaardig alternatief om geünificeerd multimodaal onderzoek te democratiseren.
English
Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.
PDF795March 17, 2026