ChatPaper.aiChatPaper

DeepGen 1.0: Ein leichtgewichtiges, vereinheitlichtes multimodales Modell zur Weiterentwicklung der Bildgenerierung und -bearbeitung

DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

February 12, 2026
papers.authors: Dianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang
cs.AI

papers.abstract

Aktuelle vereinheitlichte multimodale Modelle für Bildgenerierung und -bearbeitung basieren typischerweise auf massiven Parameterskalen (z.B. >10 Mrd.), was prohibitive Trainingskosten und Bereitstellungsaufwand mit sich bringt. In dieser Arbeit stellen wir DeepGen 1.0 vor, ein schlankes 5-Milliarden-Parameter-Modell, das dennoch umfassende Fähigkeiten erreicht, die mit deutlich größeren Modellen konkurrieren oder diese übertreffen. Um die Limitierungen kompakter Modelle im semantischen Verständnis und der feinkörnigen Steuerung zu überwinden, führen wir Stacked Channel Bridging (SCB) ein, ein Deep-Alignment-Framework, das hierarchische Merkmale aus mehreren VLM-Schichten extrahiert und diese über lernbare 'Think Tokens' fusioniert, um dem generativen Backbone strukturierte, reasoning-reiche Steuerung zu bieten. Weiterhin entwerfen wir eine datenzentrierte Trainingsstrategie über drei progressive Stufen: (1) Alignment-Vortraining an großskaligen Bild-Text-Paaren und Bearbeitungs-Triplets zur Synchronisation von VLM- und DiT-Repräsentationen, (2) Gemeinsames überwachtes Feintuning an einer hochwertigen Mischung aus Generierungs-, Bearbeitungs- und Reasoning-Aufgaben zur Entwicklung von Omni-Fähigkeiten und (3) Verstärkendes Lernen mit MR-GRPO, das eine Mischung aus Belohnungsfunktionen und Überwachungssignalen nutzt, um substanzielle Verbesserungen in Generierungsqualität und menschlicher Präferenzausrichtung bei stabilen Trainingsfortschritt und Vermeidung visueller Artefakte zu erzielen. Obwohl DeepGen 1.0 mit nur ~50M Stichproben trainiert wurde, erzielt es Spitzenleistungen in diversen Benchmarks, übertrifft das 80-Milliarden-Parameter-Modell HunyuanImage um 28 % auf WISE und das 27-Milliarden-Parameter-Modell Qwen-Image-Edit um 37 % auf UniREditBench. Durch die Open-Source-Bereitstellung unseres Trainingscodes, der Gewichte und Datensätze bieten wir eine effiziente, leistungsstarke Alternative zur Demokratisierung vereinheitlichter multimodaler Forschung.
English
Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.
PDF601February 14, 2026