DreamO: Un Framework Unificato per la Personalizzazione delle Immagini
DreamO: A Unified Framework for Image Customization
April 23, 2025
Autori: Chong Mou, Yanze Wu, Wenxu Wu, Zinan Guo, Pengze Zhang, Yufeng Cheng, Yiming Luo, Fei Ding, Shiwen Zhang, Xinghui Li, Mengtian Li, Songtao Zhao, Jian Zhang, Qian He, Xinglong Wu
cs.AI
Abstract
Recentemente, un'ampia ricerca sulla personalizzazione delle immagini (ad esempio, identità, soggetto, stile, sfondo, ecc.) ha dimostrato forti capacità di personalizzazione nei modelli generativi su larga scala. Tuttavia, la maggior parte degli approcci è progettata per compiti specifici, limitando la loro generalizzabilità per combinare diversi tipi di condizioni. Sviluppare un framework unificato per la personalizzazione delle immagini rimane una sfida aperta. In questo articolo, presentiamo DreamO, un framework di personalizzazione delle immagini progettato per supportare un'ampia gamma di compiti facilitando al contempo l'integrazione senza soluzione di continuità di più condizioni. Nello specifico, DreamO utilizza un framework di trasformatori di diffusione (DiT) per elaborare uniformemente input di diversi tipi. Durante l'addestramento, costruiamo un ampio dataset di addestramento che include vari compiti di personalizzazione e introduciamo un vincolo di instradamento delle feature per facilitare l'interrogazione precisa delle informazioni rilevanti dalle immagini di riferimento. Inoltre, progettiamo una strategia di segnaposto che associa specifici segnaposti a condizioni in posizioni particolari, consentendo il controllo sul posizionamento delle condizioni nei risultati generati. Inoltre, utilizziamo una strategia di addestramento progressivo composta da tre fasi: una fase iniziale focalizzata su compiti semplici con dati limitati per stabilire una coerenza di base, una fase di addestramento su larga scala per migliorare in modo completo le capacità di personalizzazione e una fase finale di allineamento della qualità per correggere i bias di qualità introdotti da dati di bassa qualità. Esperimenti estensivi dimostrano che il DreamO proposto può eseguire efficacemente vari compiti di personalizzazione delle immagini con alta qualità e integrare flessibilmente diversi tipi di condizioni di controllo.
English
Recently, extensive research on image customization (e.g., identity, subject,
style, background, etc.) demonstrates strong customization capabilities in
large-scale generative models. However, most approaches are designed for
specific tasks, restricting their generalizability to combine different types
of condition. Developing a unified framework for image customization remains an
open challenge. In this paper, we present DreamO, an image customization
framework designed to support a wide range of tasks while facilitating seamless
integration of multiple conditions. Specifically, DreamO utilizes a diffusion
transformer (DiT) framework to uniformly process input of different types.
During training, we construct a large-scale training dataset that includes
various customization tasks, and we introduce a feature routing constraint to
facilitate the precise querying of relevant information from reference images.
Additionally, we design a placeholder strategy that associates specific
placeholders with conditions at particular positions, enabling control over the
placement of conditions in the generated results. Moreover, we employ a
progressive training strategy consisting of three stages: an initial stage
focused on simple tasks with limited data to establish baseline consistency, a
full-scale training stage to comprehensively enhance the customization
capabilities, and a final quality alignment stage to correct quality biases
introduced by low-quality data. Extensive experiments demonstrate that the
proposed DreamO can effectively perform various image customization tasks with
high quality and flexibly integrate different types of control conditions.Summary
AI-Generated Summary