CARE-Edit: Bedingungsgesteuerte Expertlenkung für kontextbewusste Bildbearbeitung
CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing
March 9, 2026
Autoren: Yucheng Wang, Zedong Wang, Yuetong Wu, Yue Ma, Dan Xu
cs.AI
Zusammenfassung
Einheitliche Diffusions-Editoren basieren häufig auf einem festen, gemeinsamen Backbone für verschiedene Aufgaben, was zu Aufgabeninterferenzen und schlechter Anpassung an heterogene Anforderungen führt (z.B. lokal vs. global, semantisch vs. photometrisch). Insbesondere gängige ControlNet- und OmniControl-Varianten kombinieren multiple Konditionierungssignale (z.B. Text, Maske, Referenz) durch statische Konkatenierung oder additive Adapter, die konfligierende Modalitäten nicht dynamisch priorisieren oder unterdrücken können. Dies führt zu Artefakten wie Farbausläufern über Maskengrenzen hinweg, Identitäts- oder Stildrift sowie unvorhersehbarem Verhalten bei Multi-Condition-Eingaben. Um dies zu adressieren, schlagen wir Condition-Aware Routing of Experts (CARE-Edit) vor, das die Modellberechnung mit spezifischen Bearbeitungskompetenzen in Einklang bringt. Kernstück ist ein leichtgewichtiger Latent-Attention-Router, der encodierte Diffusions-Tokens basierend auf multimodalen Bedingungen und Diffusions-Zeitschritten vier spezialisierten Experten zuweist – Text, Maske, Referenz und Basis: (i) ein Mask Repaint-Modul verfeinert zunächst grobe benutzerdefinierte Masken für präzise räumliche Führung; (ii) der Router wendet eine sparse Top-K-Selektion an, um Rechenoperationen dynamisch den relevantesten Experten zuzuteilen; (iii) ein Latent Mixture-Modul fusioniert anschließend die Expertenergebnisse, um semantische, räumliche und stilistische Informationen kohärent in die Basisbilder zu integrieren. Experimente validieren die hohe Leistung von CARE-Edit bei kontextuellen Bearbeitungsaufgaben wie Löschung, Ersetzung, textgesteuerter Bearbeitung und Stiltransfer. Empirische Analysen zeigen zudem aufgabenspezifisches Verhalten der spezialisierten Experten und unterstreichen die Bedeutung dynamischer, konditionsabhängiger Verarbeitung zur Minderung von Multi-Condition-Konflikten.
English
Unified diffusion editors often rely on a fixed, shared backbone for diverse tasks, suffering from task interference and poor adaptation to heterogeneous demands (e.g., local vs global, semantic vs photometric). In particular, prevalent ControlNet and OmniControl variants combine multiple conditioning signals (e.g., text, mask, reference) via static concatenation or additive adapters which cannot dynamically prioritize or suppress conflicting modalities, thus resulting in artifacts like color bleeding across mask boundaries, identity or style drift, and unpredictable behavior under multi-condition inputs. To address this, we propose Condition-Aware Routing of Experts (CARE-Edit) that aligns model computation with specific editing competencies. At its core, a lightweight latent-attention router assigns encoded diffusion tokens to four specialized experts--Text, Mask, Reference, and Base--based on multi-modal conditions and diffusion timesteps: (i) a Mask Repaint module first refines coarse user-defined masks for precise spatial guidance; (ii) the router applies sparse top-K selection to dynamically allocate computation to the most relevant experts; (iii) a Latent Mixture module subsequently fuses expert outputs, coherently integrating semantic, spatial, and stylistic information to the base images. Experiments validate CARE-Edit's strong performance on contextual editing tasks, including erasure, replacement, text-driven edits, and style transfer. Empirical analysis further reveals task-specific behavior of specialized experts, showcasing the importance of dynamic, condition-aware processing to mitigate multi-condition conflicts.