CARE-Edit: Instradamento Condizionato di Esperti per la Modifica Contestuale di Immagini

Abstract

Gli editor di diffusione unificati si basano spesso su un'architettura fissa e condivisa per diverse attività, soffrendo di interferenze tra compiti e scarsa adattabilità a richieste eterogenee (ad esempio, locale vs globale, semantico vs fotometrico). In particolare, le varianti prevalenti di ControlNet e OmniControl combinano segnali di condizionamento multipli (ad esempio testo, maschera, riferimento) tramite concatenazione statica o adattatori additivi che non possono dare priorità dinamica o sopprimere modalità in conflitto, risultando così in artefatti come sanguinamento cromatico ai bordi delle maschere, deriva di identità o stile, e comportamenti imprevedibili con input multi-condizione. Per affrontare ciò, proponiamo Condition-Aware Routing of Experts (CARE-Edit), che allinea il calcolo del modello a competenze di editing specifiche. Nella sua essenza, un router latente-attention leggero assegna i token di diffusione codificati a quattro esperti specializzati—Testo, Maschera, Riferimento e Base—in base a condizioni multimodali e step temporali di diffusione: (i) un modulo Mask Repaint affina inizialmente le maschere definite approssimativamente dall'utente per una guida spaziale precisa; (ii) il router applica una selezione sparsa top-K per allocare dinamicamente il calcolo agli esperti più rilevanti; (iii) un modulo Latent Mixture fonde successivamente gli output degli esperti, integrando coerentemente informazioni semantiche, spaziali e stilistiche nelle immagini base. Gli esperimenti convalidano le solide prestazioni di CARE-Edit su attività di editing contestuale, inclusa cancellazione, sostituzione, modifiche guidate da testo e trasferimento di stile. L'analisi empirica rivela ulteriormente un comportamento specifico per compito degli esperti specializzati, evidenziando l'importanza di un'elaborazione dinamica e consapevole delle condizioni per mitigare i conflitti multi-condizione.

English

Unified diffusion editors often rely on a fixed, shared backbone for diverse tasks, suffering from task interference and poor adaptation to heterogeneous demands (e.g., local vs global, semantic vs photometric). In particular, prevalent ControlNet and OmniControl variants combine multiple conditioning signals (e.g., text, mask, reference) via static concatenation or additive adapters which cannot dynamically prioritize or suppress conflicting modalities, thus resulting in artifacts like color bleeding across mask boundaries, identity or style drift, and unpredictable behavior under multi-condition inputs. To address this, we propose Condition-Aware Routing of Experts (CARE-Edit) that aligns model computation with specific editing competencies. At its core, a lightweight latent-attention router assigns encoded diffusion tokens to four specialized experts--Text, Mask, Reference, and Base--based on multi-modal conditions and diffusion timesteps: (i) a Mask Repaint module first refines coarse user-defined masks for precise spatial guidance; (ii) the router applies sparse top-K selection to dynamically allocate computation to the most relevant experts; (iii) a Latent Mixture module subsequently fuses expert outputs, coherently integrating semantic, spatial, and stylistic information to the base images. Experiments validate CARE-Edit's strong performance on contextual editing tasks, including erasure, replacement, text-driven edits, and style transfer. Empirical analysis further reveals task-specific behavior of specialized experts, showcasing the importance of dynamic, condition-aware processing to mitigate multi-condition conflicts.

CARE-Edit: Instradamento Condizionato di Esperti per la Modifica Contestuale di Immagini

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Abstract

Support