OmniConsistentie: Het leren van stijlonafhankelijke consistentie uit gepaarde stilisatiedata
OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data
May 24, 2025
Auteurs: Yiren Song, Cheng Liu, Mike Zheng Shou
cs.AI
Samenvatting
Diffusiemodellen hebben beeldstilisering aanzienlijk vooruitgeholpen, maar twee kernuitdagingen blijven bestaan: (1) het behouden van consistente stilisering in complexe scènes, met name wat betreft identiteit, compositie en fijne details, en (2) het voorkomen van stijldegradatie in beeld-naar-beeldpijplijnen met stijl-LoRA's. De uitzonderlijke stiliseringconsistentie van GPT-4o benadrukt het prestatieverschil tussen open-source methoden en propriëtaire modellen. Om deze kloof te overbruggen, stellen we OmniConsistency voor, een universele consistentieplugin die gebruikmaakt van grootschalige Diffusion Transformers (DiTs). OmniConsistency draagt bij: (1) een in-context consistentie-leerkader getraind op uitgelijnde beeldparen voor robuuste generalisatie; (2) een tweefasige progressieve leerstrategie die stijlleren ontkoppelt van consistentiebehoud om stijldegradatie te verminderen; en (3) een volledig plug-and-play ontwerp dat compatibel is met willekeurige stijl-LoRA's onder het Flux-framework. Uitgebreide experimenten tonen aan dat OmniConsistency de visuele samenhang en esthetische kwaliteit aanzienlijk verbetert, waardoor prestaties worden bereikt die vergelijkbaar zijn met die van het commerciële state-of-the-art model GPT-4o.
English
Diffusion models have advanced image stylization significantly, yet two core
challenges persist: (1) maintaining consistent stylization in complex scenes,
particularly identity, composition, and fine details, and (2) preventing style
degradation in image-to-image pipelines with style LoRAs. GPT-4o's exceptional
stylization consistency highlights the performance gap between open-source
methods and proprietary models. To bridge this gap, we propose
OmniConsistency, a universal consistency plugin leveraging large-scale
Diffusion Transformers (DiTs). OmniConsistency contributes: (1) an in-context
consistency learning framework trained on aligned image pairs for robust
generalization; (2) a two-stage progressive learning strategy decoupling style
learning from consistency preservation to mitigate style degradation; and (3) a
fully plug-and-play design compatible with arbitrary style LoRAs under the Flux
framework. Extensive experiments show that OmniConsistency significantly
enhances visual coherence and aesthetic quality, achieving performance
comparable to commercial state-of-the-art model GPT-4o.