ChatPaper.aiChatPaper

OmniConsistency: Apprendimento della Consistenza Indipendente dallo Stile da Dati di Stilizzazione Accoppiati

OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

May 24, 2025
Autori: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI

Abstract

I modelli di diffusione hanno fatto avanzare significativamente la stilizzazione delle immagini, ma persistono due sfide principali: (1) mantenere una stilizzazione coerente in scene complesse, in particolare per quanto riguarda l'identità, la composizione e i dettagli fini, e (2) prevenire il degrado dello stile nelle pipeline immagine-immagine con LoRA di stile. L'eccezionale coerenza nella stilizzazione di GPT-4o evidenzia il divario di prestazioni tra i metodi open-source e i modelli proprietari. Per colmare questo divario, proponiamo OmniConsistency, un plugin universale di coerenza che sfrutta i Transformer di Diffusione su larga scala (DiT). OmniConsistency contribuisce con: (1) un framework di apprendimento della coerenza in-context addestrato su coppie di immagini allineate per una generalizzazione robusta; (2) una strategia di apprendimento progressivo in due fasi che separa l'apprendimento dello stile dalla preservazione della coerenza per mitigare il degrado dello stile; e (3) un design completamente plug-and-play compatibile con qualsiasi LoRA di stile all'interno del framework Flux. Esperimenti estensivi dimostrano che OmniConsistency migliora significativamente la coerenza visiva e la qualità estetica, raggiungendo prestazioni paragonabili al modello commerciale all'avanguardia GPT-4o.
English
Diffusion models have advanced image stylization significantly, yet two core challenges persist: (1) maintaining consistent stylization in complex scenes, particularly identity, composition, and fine details, and (2) preventing style degradation in image-to-image pipelines with style LoRAs. GPT-4o's exceptional stylization consistency highlights the performance gap between open-source methods and proprietary models. To bridge this gap, we propose OmniConsistency, a universal consistency plugin leveraging large-scale Diffusion Transformers (DiTs). OmniConsistency contributes: (1) an in-context consistency learning framework trained on aligned image pairs for robust generalization; (2) a two-stage progressive learning strategy decoupling style learning from consistency preservation to mitigate style degradation; and (3) a fully plug-and-play design compatible with arbitrary style LoRAs under the Flux framework. Extensive experiments show that OmniConsistency significantly enhances visual coherence and aesthetic quality, achieving performance comparable to commercial state-of-the-art model GPT-4o.
PDF652May 28, 2025