DeepGen 1.0: Un Modello Multimodale Unificato Leggero per l'Avanzamento della Generazione e Modifica delle Immagini

Abstract

Gli attuali modelli multimodali unificati per la generazione e modifica di immagini si basano tipicamente su scale parametriche massive (es. >10B), comportando costi di addestramento e impronte computazionali proibitivi. In questo lavoro presentiamo DeepGen 1.0, un modello unificato leggero da 5B parametri che raggiunge capacità competitive o superiori a controparti molto più grandi. Per superare i limiti dei modelli compatti nella comprensione semantica e nel controllo granulare, introduciamo Stacked Channel Bridging (SCB), un framework di allineamento profondo che estrae caratteristiche gerarchiche da multipli livelli del VLM e le fonde con "think token" apprendibili per fornire al backbone generativo una guida strutturata e ricca di ragionamento. Progettiamo inoltre una strategia di addestramento data-centrica articolata in tre stadi progressivi: (1) Pre-addestramento di allineamento su coppie immagine-testo e triplette di editing su larga scala per sincronizzare le rappresentazioni del VLM e del DiT, (2) Fine-tuning supervisionato congiunto su un misto di alta qualità di task di generazione, editing e ragionamento per sviluppare capacità omnicomprensive, e (3) Apprendimento per Rinforzo con MR-GRPO, che utilizza un insieme di funzioni di reward e segnali di supervisione, producendo miglioramenti sostanziali nella qualità generativa e nell'allineamento alle preferenze umane, mantenendo al contempo una progressione stabile dell'addestramento ed evitando artefatti visivi. Nonostante l'addestramento su soli ~50M di campioni, DeepGen 1.0 raggiunge prestazioni leader su benchmark diversificati, superando HunyuanImage da 80B del 28% su WISE e Qwen-Image-Edit da 27B del 37% su UniREditBench. Rendi

English

Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.

DeepGen 1.0: Un Modello Multimodale Unificato Leggero per l'Avanzamento della Generazione e Modifica delle Immagini

DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

Abstract

Support