OmniConsistency: Aprendizaje de Consistencia Independiente del Estilo a partir de Datos de Estilización Emparejados
OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data
May 24, 2025
Autores: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI
Resumen
Los modelos de difusión han avanzado significativamente en la estilización de imágenes, sin embargo, persisten dos desafíos principales: (1) mantener una estilización consistente en escenas complejas, particularmente en la identidad, composición y detalles finos, y (2) prevenir la degradación del estilo en pipelines de imagen a imagen con LoRAs de estilo. La excepcional consistencia en la estilización de GPT-4o resalta la brecha de rendimiento entre los métodos de código abierto y los modelos propietarios. Para cerrar esta brecha, proponemos OmniConsistency, un plugin universal de consistencia que aprovecha los Transformadores de Difusión a gran escala (DiTs). OmniConsistency contribuye con: (1) un marco de aprendizaje de consistencia en contexto entrenado en pares de imágenes alineadas para una generalización robusta; (2) una estrategia de aprendizaje progresivo en dos etapas que desacopla el aprendizaje del estilo de la preservación de la consistencia para mitigar la degradación del estilo; y (3) un diseño completamente plug-and-play compatible con cualquier LoRA de estilo bajo el marco Flux. Experimentos extensos muestran que OmniConsistency mejora significativamente la coherencia visual y la calidad estética, alcanzando un rendimiento comparable al modelo comercial de última generación GPT-4o.
English
Diffusion models have advanced image stylization significantly, yet two core
challenges persist: (1) maintaining consistent stylization in complex scenes,
particularly identity, composition, and fine details, and (2) preventing style
degradation in image-to-image pipelines with style LoRAs. GPT-4o's exceptional
stylization consistency highlights the performance gap between open-source
methods and proprietary models. To bridge this gap, we propose
OmniConsistency, a universal consistency plugin leveraging large-scale
Diffusion Transformers (DiTs). OmniConsistency contributes: (1) an in-context
consistency learning framework trained on aligned image pairs for robust
generalization; (2) a two-stage progressive learning strategy decoupling style
learning from consistency preservation to mitigate style degradation; and (3) a
fully plug-and-play design compatible with arbitrary style LoRAs under the Flux
framework. Extensive experiments show that OmniConsistency significantly
enhances visual coherence and aesthetic quality, achieving performance
comparable to commercial state-of-the-art model GPT-4o.Summary
AI-Generated Summary