CARE-Edit: Voorwaardelijk Gestuurde Routering van Experts voor Contextueel Bewerken van Afbeeldingen

Samenvatting

Unified diffuseditieerders vertrouwen vaak op een vaste, gedeelde backbone voor uiteenlopende taken, wat leidt tot taakinterferentie en een slechte aanpassing aan heterogene eisen (bijv. lokaal vs. globaal, semantisch vs. fotometrisch). Met name gangbare ControlNet- en OmniControl-varianten combineren meerdere conditioneringssignalen (zoals tekst, maskers, referenties) via statische concatenatie of additieve adapters, die niet dynamisch conflicterende modaliteiten kunnen prioriteren of onderdrukken. Dit resulteert in artefacten zoals kleurverspreiding over maskergrenzen heen, identiteits- of stijldrift, en onvoorspelbaar gedrag bij multi-condition inputs. Om dit aan te pakken, stellen wij Condition-Aware Routing of Experts (CARE-Edit) voor, dat modelberekening afstemt op specifieke editiecompetenties. De kern is een lichtgewicht latent-attention router die gecodeerde diffusietokens toewijst aan vier gespecialiseerde experts – Tekst, Masker, Referentie en Basis – op basis van multimodale condities en diffusietijdstappen: (i) een Masker Repaint-module verfijnt eerst grove door de gebruiker gedefinieerde maskers voor precieze ruimtelijke begeleiding; (ii) de router past sparse top-K selectie toe om berekening dynamisch toe te wijzen aan de meest relevante experts; (iii) een Latent Mixture-module fuseert vervolgens de expertoutputs, waarbij semantische, ruimtelijke en stilistische informatie coherent wordt geïntegreerd in de basisafbeeldingen. Experimenten valideren de sterke prestaties van CARE-Edit bij contextuele edittaken, waaronder verwijdering, vervanging, tekstgestuurde aanpassingen en stijloverdracht. Empirische analyse onthult verder taakspecifiek gedrag van gespecialiseerde experts, wat het belang aantoont van dynamische, condition-aware verwerking om conflicten tussen meerdere condities te mitigeren.

English

Unified diffusion editors often rely on a fixed, shared backbone for diverse tasks, suffering from task interference and poor adaptation to heterogeneous demands (e.g., local vs global, semantic vs photometric). In particular, prevalent ControlNet and OmniControl variants combine multiple conditioning signals (e.g., text, mask, reference) via static concatenation or additive adapters which cannot dynamically prioritize or suppress conflicting modalities, thus resulting in artifacts like color bleeding across mask boundaries, identity or style drift, and unpredictable behavior under multi-condition inputs. To address this, we propose Condition-Aware Routing of Experts (CARE-Edit) that aligns model computation with specific editing competencies. At its core, a lightweight latent-attention router assigns encoded diffusion tokens to four specialized experts--Text, Mask, Reference, and Base--based on multi-modal conditions and diffusion timesteps: (i) a Mask Repaint module first refines coarse user-defined masks for precise spatial guidance; (ii) the router applies sparse top-K selection to dynamically allocate computation to the most relevant experts; (iii) a Latent Mixture module subsequently fuses expert outputs, coherently integrating semantic, spatial, and stylistic information to the base images. Experiments validate CARE-Edit's strong performance on contextual editing tasks, including erasure, replacement, text-driven edits, and style transfer. Empirical analysis further reveals task-specific behavior of specialized experts, showcasing the importance of dynamic, condition-aware processing to mitigate multi-condition conflicts.

CARE-Edit: Voorwaardelijk Gestuurde Routering van Experts voor Contextueel Bewerken van Afbeeldingen

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Samenvatting

Support