OmniConsistency: Обучение стиле-независимой согласованности на основе парных данных стилизации
OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data
May 24, 2025
Авторы: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI
Аннотация
Диффузионные модели значительно продвинули стилизацию изображений, однако две ключевые проблемы остаются нерешенными: (1) сохранение согласованной стилизации в сложных сценах, особенно в отношении идентичности, композиции и мелких деталей, и (2) предотвращение деградации стиля в конвейерах "изображение-в-изображение" с использованием стилевых LoRA. Исключительная согласованность стилизации GPT-4o подчеркивает разрыв в производительности между открытыми методами и проприетарными моделями. Чтобы сократить этот разрыв, мы предлагаем OmniConsistency — универсальный плагин для согласованности, использующий крупномасштабные Диффузионные Трансформеры (DiT). OmniConsistency вносит следующие вклады: (1) фреймворк для обучения согласованности в контексте, тренируемый на выровненных парах изображений для устойчивой генерализации; (2) двухэтапную прогрессивную стратегию обучения, разделяющую изучение стиля и сохранение согласованности для минимизации деградации стиля; и (3) полностью plug-and-play дизайн, совместимый с произвольными стилевыми LoRA в рамках Flux-фреймворка. Многочисленные эксперименты показывают, что OmniConsistency значительно улучшает визуальную согласованность и эстетическое качество, достигая производительности, сопоставимой с коммерческой передовой моделью GPT-4o.
English
Diffusion models have advanced image stylization significantly, yet two core
challenges persist: (1) maintaining consistent stylization in complex scenes,
particularly identity, composition, and fine details, and (2) preventing style
degradation in image-to-image pipelines with style LoRAs. GPT-4o's exceptional
stylization consistency highlights the performance gap between open-source
methods and proprietary models. To bridge this gap, we propose
OmniConsistency, a universal consistency plugin leveraging large-scale
Diffusion Transformers (DiTs). OmniConsistency contributes: (1) an in-context
consistency learning framework trained on aligned image pairs for robust
generalization; (2) a two-stage progressive learning strategy decoupling style
learning from consistency preservation to mitigate style degradation; and (3) a
fully plug-and-play design compatible with arbitrary style LoRAs under the Flux
framework. Extensive experiments show that OmniConsistency significantly
enhances visual coherence and aesthetic quality, achieving performance
comparable to commercial state-of-the-art model GPT-4o.Summary
AI-Generated Summary