DeepGen 1.0: Um Modelo Multimodal Unificado e Leve para o Avanço da Geração e Edição de Imagens

Resumo

Os modelos multimodais unificados atuais para geração e edição de imagens geralmente dependem de escalas massivas de parâmetros (ex: >10B), implicando custos proibitivos de treinamento e pegadas de implantação. Neste trabalho, apresentamos o DeepGen 1.0, um modelo unificado leve de 5B que alcança capacidades abrangentes competitivas ou superiores a contrapartidas muito maiores. Para superar as limitações de modelos compactos em compreensão semântica e controle refinado, introduzimos o Stacked Channel Bridging (SCB), uma estrutura de alinhamento profundo que extrai características hierárquicas de múltiplas camadas de VLM e as funde com 'tokens de pensamento' aprendíveis para fornecer ao backbone gerativo uma orientação estruturada e rica em raciocínio. Projetamos ainda uma estratégia de treinamento centrada em dados abrangendo três estágios progressivos: (1) Pré-treinamento de Alinhamento em pares massivos de imagem-texto e tripletos de edição para sincronizar representações de VLM e DiT, (2) Ajuste Fino Supervisionado Conjunto em uma mistura de alta qualidade de tarefas de geração, edição e raciocínio para desenvolver capacidades omni, e (3) Aprendizado por Reforço com MR-GRPO, que aproveita uma mistura de funções de recompensa e sinais de supervisão, resultando em ganhos substanciais na qualidade de geração e alinhamento com preferências humanas, enquanto mantém progresso de treinamento estável e evita artefatos visuais. Apesar de treinado em apenas ~50M de amostras, o DeepGen 1.0 alcança desempenho líder em diversos benchmarks, superando o HunyuanImage de 80B em 28% no WISE e o Qwen-Image-Edit de 27B em 37% no UniREditBench. Ao disponibilizar nosso código de treinamento, pesos e conjuntos de dados em código aberto, fornecemos uma alternativa eficiente e de alto desempenho para democratizar a pesquisa multimodal unificada.

English

Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.

DeepGen 1.0: Um Modelo Multimodal Unificado e Leve para o Avanço da Geração e Edição de Imagens

DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

Resumo

Support