ChatPaper.aiChatPaper

OmniConsistency: Aprendendo Consistência Independente de Estilo a partir de Dados Emparelhados de Estilização

OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

May 24, 2025
Autores: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI

Resumo

Os modelos de difusão avançaram significativamente a estilização de imagens, mas dois desafios centrais persistem: (1) manter uma estilização consistente em cenas complexas, particularmente em relação à identidade, composição e detalhes finos, e (2) evitar a degradação do estilo em pipelines de imagem para imagem com LoRAs de estilo. A excepcional consistência de estilização do GPT-4o destaca a lacuna de desempenho entre métodos de código aberto e modelos proprietários. Para preencher essa lacuna, propomos o OmniConsistency, um plugin universal de consistência que aproveita Transformers de Difusão em larga escala (DiTs). O OmniConsistency contribui com: (1) um framework de aprendizado de consistência em contexto treinado em pares de imagens alinhadas para generalização robusta; (2) uma estratégia de aprendizado progressivo em duas etapas que desacopla o aprendizado de estilo da preservação da consistência para mitigar a degradação do estilo; e (3) um design totalmente plug-and-play compatível com LoRAs de estilo arbitrários sob o framework Flux. Experimentos extensivos mostram que o OmniConsistency melhora significativamente a coerência visual e a qualidade estética, alcançando desempenho comparável ao modelo comercial state-of-the-art GPT-4o.
English
Diffusion models have advanced image stylization significantly, yet two core challenges persist: (1) maintaining consistent stylization in complex scenes, particularly identity, composition, and fine details, and (2) preventing style degradation in image-to-image pipelines with style LoRAs. GPT-4o's exceptional stylization consistency highlights the performance gap between open-source methods and proprietary models. To bridge this gap, we propose OmniConsistency, a universal consistency plugin leveraging large-scale Diffusion Transformers (DiTs). OmniConsistency contributes: (1) an in-context consistency learning framework trained on aligned image pairs for robust generalization; (2) a two-stage progressive learning strategy decoupling style learning from consistency preservation to mitigate style degradation; and (3) a fully plug-and-play design compatible with arbitrary style LoRAs under the Flux framework. Extensive experiments show that OmniConsistency significantly enhances visual coherence and aesthetic quality, achieving performance comparable to commercial state-of-the-art model GPT-4o.
PDF632December 4, 2025