DreamO: Un Framework Unificato per la Personalizzazione delle Immagini

Abstract

Recentemente, un'ampia ricerca sulla personalizzazione delle immagini (ad esempio, identità, soggetto, stile, sfondo, ecc.) ha dimostrato forti capacità di personalizzazione nei modelli generativi su larga scala. Tuttavia, la maggior parte degli approcci è progettata per compiti specifici, limitando la loro generalizzabilità per combinare diversi tipi di condizioni. Sviluppare un framework unificato per la personalizzazione delle immagini rimane una sfida aperta. In questo articolo, presentiamo DreamO, un framework di personalizzazione delle immagini progettato per supportare un'ampia gamma di compiti facilitando al contempo l'integrazione senza soluzione di continuità di più condizioni. Nello specifico, DreamO utilizza un framework di trasformatori di diffusione (DiT) per elaborare uniformemente input di diversi tipi. Durante l'addestramento, costruiamo un ampio dataset di addestramento che include vari compiti di personalizzazione e introduciamo un vincolo di instradamento delle feature per facilitare l'interrogazione precisa delle informazioni rilevanti dalle immagini di riferimento. Inoltre, progettiamo una strategia di segnaposto che associa specifici segnaposti a condizioni in posizioni particolari, consentendo il controllo sul posizionamento delle condizioni nei risultati generati. Inoltre, utilizziamo una strategia di addestramento progressivo composta da tre fasi: una fase iniziale focalizzata su compiti semplici con dati limitati per stabilire una coerenza di base, una fase di addestramento su larga scala per migliorare in modo completo le capacità di personalizzazione e una fase finale di allineamento della qualità per correggere i bias di qualità introdotti da dati di bassa qualità. Esperimenti estensivi dimostrano che il DreamO proposto può eseguire efficacemente vari compiti di personalizzazione delle immagini con alta qualità e integrare flessibilmente diversi tipi di condizioni di controllo.

English

Recently, extensive research on image customization (e.g., identity, subject, style, background, etc.) demonstrates strong customization capabilities in large-scale generative models. However, most approaches are designed for specific tasks, restricting their generalizability to combine different types of condition. Developing a unified framework for image customization remains an open challenge. In this paper, we present DreamO, an image customization framework designed to support a wide range of tasks while facilitating seamless integration of multiple conditions. Specifically, DreamO utilizes a diffusion transformer (DiT) framework to uniformly process input of different types. During training, we construct a large-scale training dataset that includes various customization tasks, and we introduce a feature routing constraint to facilitate the precise querying of relevant information from reference images. Additionally, we design a placeholder strategy that associates specific placeholders with conditions at particular positions, enabling control over the placement of conditions in the generated results. Moreover, we employ a progressive training strategy consisting of three stages: an initial stage focused on simple tasks with limited data to establish baseline consistency, a full-scale training stage to comprehensively enhance the customization capabilities, and a final quality alignment stage to correct quality biases introduced by low-quality data. Extensive experiments demonstrate that the proposed DreamO can effectively perform various image customization tasks with high quality and flexibly integrate different types of control conditions.

DreamO: Un Framework Unificato per la Personalizzazione delle Immagini

DreamO: A Unified Framework for Image Customization

Abstract

Support