OmniConsistency: Erlernen stilagnostischer Konsistenz aus gepaarten Stilisierungsdaten
OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data
May 24, 2025
Autoren: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI
Zusammenfassung
Diffusionsmodelle haben die Bildstilisierung erheblich vorangetrieben, doch bestehen weiterhin zwei zentrale Herausforderungen: (1) die Beibehaltung einer konsistenten Stilisierung in komplexen Szenen, insbesondere in Bezug auf Identität, Komposition und feine Details, und (2) die Vermeidung von Stilabbau in Bild-zu-Bild-Pipelines mit Stil-LoRAs. Die außergewöhnliche Stilisierungskonsistenz von GPT-4o verdeutlicht die Leistungslücke zwischen Open-Source-Methoden und proprietären Modellen. Um diese Lücke zu schließen, schlagen wir OmniConsistency vor, ein universelles Konsistenz-Plugin, das großskalige Diffusion Transformers (DiTs) nutzt. OmniConsistency leistet folgende Beiträge: (1) ein In-Context-Konsistenzlernframework, das auf ausgerichteten Bildpaaren trainiert wird, um eine robuste Generalisierung zu ermöglichen; (2) eine zweistufige progressive Lernstrategie, die das Stil-Lernen von der Konsistenzbewahrung entkoppelt, um Stilabbau zu minimieren; und (3) ein vollständig Plug-and-Play-Design, das mit beliebigen Stil-LoRAs unter dem Flux-Framework kompatibel ist. Umfangreiche Experimente zeigen, dass OmniConsistency die visuelle Kohärenz und ästhetische Qualität signifikant verbessert und eine Leistung erreicht, die mit dem kommerziellen State-of-the-Art-Modell GPT-4o vergleichbar ist.
English
Diffusion models have advanced image stylization significantly, yet two core
challenges persist: (1) maintaining consistent stylization in complex scenes,
particularly identity, composition, and fine details, and (2) preventing style
degradation in image-to-image pipelines with style LoRAs. GPT-4o's exceptional
stylization consistency highlights the performance gap between open-source
methods and proprietary models. To bridge this gap, we propose
OmniConsistency, a universal consistency plugin leveraging large-scale
Diffusion Transformers (DiTs). OmniConsistency contributes: (1) an in-context
consistency learning framework trained on aligned image pairs for robust
generalization; (2) a two-stage progressive learning strategy decoupling style
learning from consistency preservation to mitigate style degradation; and (3) a
fully plug-and-play design compatible with arbitrary style LoRAs under the Flux
framework. Extensive experiments show that OmniConsistency significantly
enhances visual coherence and aesthetic quality, achieving performance
comparable to commercial state-of-the-art model GPT-4o.Summary
AI-Generated Summary