CARE-Edit : Routage Conditionnel d'Experts pour l'Édition Contextuelle d'Images

Résumé

Les éditeurs de diffusion unifiés reposent souvent sur une architecture fixe et partagée pour diverses tâches, souffrant d'interférences entre tâches et d'une mauvaise adaptation aux demandes hétérogènes (par exemple, local vs global, sémantique vs photométrique). En particulier, les variantes prédominantes de ControlNet et OmniControl combinent plusieurs signaux de conditionnement (par exemple, texte, masque, référence) via une concaténation statique ou des adaptateurs additifs qui ne peuvent pas prioriser ou supprimer dynamiquement les modalités conflictuelles, entraînant ainsi des artefacts comme des saignements de couleur aux limites des masques, des dérives d'identité ou de style, et des comportements imprévisibles avec des entrées multi-conditions. Pour résoudre ce problème, nous proposons le Routage Conditionnel d'Experts (CARE-Edit) qui aligne le calcul du modèle avec des compétences d'édition spécifiques. Au cœur du système, un routeur à attention latente léger assigne les tokens de diffusion encodés à quatre experts spécialisés – Texte, Masque, Référence et Base – en fonction des conditions multimodales et des pas de temps de diffusion : (i) un module de Repeinture de Masque affine d'abord les masques grossiers définis par l'utilisateur pour un guidage spatial précis ; (ii) le routeur applique une sélection creuse top-K pour allouer dynamiquement le calcul aux experts les plus pertinents ; (iii) un module de Mélange Latent fusionne ensuite les sorties des experts, intégrant de manière cohérente les informations sémantiques, spatiales et stylistiques aux images de base. Les expériences valident les performances solides de CARE-Edit sur des tâches d'édition contextuelles, incluant l'effacement, le remplacement, les modifications pilotées par texte et le transfert de style. L'analyse empirique révèle en outre un comportement spécifique aux tâches des experts spécialisés, démontrant l'importance d'un traitement dynamique et conditionnel pour atténuer les conflits multi-conditions.

English

Unified diffusion editors often rely on a fixed, shared backbone for diverse tasks, suffering from task interference and poor adaptation to heterogeneous demands (e.g., local vs global, semantic vs photometric). In particular, prevalent ControlNet and OmniControl variants combine multiple conditioning signals (e.g., text, mask, reference) via static concatenation or additive adapters which cannot dynamically prioritize or suppress conflicting modalities, thus resulting in artifacts like color bleeding across mask boundaries, identity or style drift, and unpredictable behavior under multi-condition inputs. To address this, we propose Condition-Aware Routing of Experts (CARE-Edit) that aligns model computation with specific editing competencies. At its core, a lightweight latent-attention router assigns encoded diffusion tokens to four specialized experts--Text, Mask, Reference, and Base--based on multi-modal conditions and diffusion timesteps: (i) a Mask Repaint module first refines coarse user-defined masks for precise spatial guidance; (ii) the router applies sparse top-K selection to dynamically allocate computation to the most relevant experts; (iii) a Latent Mixture module subsequently fuses expert outputs, coherently integrating semantic, spatial, and stylistic information to the base images. Experiments validate CARE-Edit's strong performance on contextual editing tasks, including erasure, replacement, text-driven edits, and style transfer. Empirical analysis further reveals task-specific behavior of specialized experts, showcasing the importance of dynamic, condition-aware processing to mitigate multi-condition conflicts.

CARE-Edit : Routage Conditionnel d'Experts pour l'Édition Contextuelle d'Images

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Résumé

Support