ChatPaper.aiChatPaper

OmniConsistency : Apprentissage de la cohérence indépendante du style à partir de données de stylisation appariées

OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

May 24, 2025
Auteurs: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI

Résumé

Les modèles de diffusion ont considérablement fait progresser la stylisation d'images, mais deux défis majeurs persistent : (1) maintenir une stylisation cohérente dans des scènes complexes, en particulier en ce qui concerne l'identité, la composition et les détails fins, et (2) prévenir la dégradation du style dans les pipelines image-à-image utilisant des LoRAs de style. La cohérence exceptionnelle de la stylisation de GPT-4o met en évidence l'écart de performance entre les méthodes open-source et les modèles propriétaires. Pour combler cet écart, nous proposons OmniConsistency, un plugin universel de cohérence exploitant les Transformers de Diffusion à grande échelle (DiTs). OmniConsistency apporte trois contributions principales : (1) un cadre d'apprentissage de cohérence en contexte, entraîné sur des paires d'images alignées pour une généralisation robuste ; (2) une stratégie d'apprentissage progressive en deux étapes, découplant l'apprentissage du style de la préservation de la cohérence pour atténuer la dégradation du style ; et (3) une conception entièrement plug-and-play compatible avec des LoRAs de style arbitraires sous le framework Flux. Des expériences approfondies montrent qu'OmniConsistency améliore significativement la cohérence visuelle et la qualité esthétique, atteignant des performances comparables à celles du modèle commercial de pointe GPT-4o.
English
Diffusion models have advanced image stylization significantly, yet two core challenges persist: (1) maintaining consistent stylization in complex scenes, particularly identity, composition, and fine details, and (2) preventing style degradation in image-to-image pipelines with style LoRAs. GPT-4o's exceptional stylization consistency highlights the performance gap between open-source methods and proprietary models. To bridge this gap, we propose OmniConsistency, a universal consistency plugin leveraging large-scale Diffusion Transformers (DiTs). OmniConsistency contributes: (1) an in-context consistency learning framework trained on aligned image pairs for robust generalization; (2) a two-stage progressive learning strategy decoupling style learning from consistency preservation to mitigate style degradation; and (3) a fully plug-and-play design compatible with arbitrary style LoRAs under the Flux framework. Extensive experiments show that OmniConsistency significantly enhances visual coherence and aesthetic quality, achieving performance comparable to commercial state-of-the-art model GPT-4o.

Summary

AI-Generated Summary

PDF622May 28, 2025