CARE-Edit: Enrutamiento Condicional de Expertos para la Edición Contextual de Imágenes

Resumen

Los editores de difusión unificados a menudo dependen de una arquitectura fija y compartida para diversas tareas, sufriendo de interferencia entre tareas y una pobre adaptación a demandas heterogéneas (por ejemplo, local vs. global, semántica vs. fotométrica). En particular, las variantes predominantes como ControlNet y OmniControl combinan múltiples señales de condicionamiento (por ejemplo, texto, máscara, referencia) mediante concatenación estática o adaptadores aditivos que no pueden priorizar o suprimir dinámicamente modalidades conflictivas, lo que resulta en artefactos como sangrado de color en los límites de las máscaras, deriva de identidad o estilo, y comportamientos impredecibles bajo entradas multi-condición. Para abordar esto, proponemos Condition-Aware Routing of Experts (CARE-Edit), que alinea el cómputo del modelo con competencias de edición específicas. En su núcleo, un enrutador de atención latente ligero asigna tokens de difusión codificados a cuatro expertos especializados (Texto, Máscara, Referencia y Base) basándose en condiciones multimodales y pasos de tiempo de difusión: (i) un módulo de Repintado de Máscara primero refina máscaras definidas por el usuario para una guía espacial precisa; (ii) el enrutador aplica una selección top-K dispersa para asignar dinámicamente el cómputo a los expertos más relevantes; (iii) un módulo de Mezcla Latente fusiona posteriormente las salidas de los expertos, integrando coherentemente información semántica, espacial y estilística en las imágenes base. Los experimentos validan el sólido rendimiento de CARE-Edit en tareas de edición contextual, incluyendo borrado, reemplazo, ediciones guiadas por texto y transferencia de estilo. El análisis empírico revela además el comportamiento específico por tarea de los expertos especializados, destacando la importancia del procesamiento dinámico y consciente del condicionamiento para mitigar conflictos multi-condición.

English

Unified diffusion editors often rely on a fixed, shared backbone for diverse tasks, suffering from task interference and poor adaptation to heterogeneous demands (e.g., local vs global, semantic vs photometric). In particular, prevalent ControlNet and OmniControl variants combine multiple conditioning signals (e.g., text, mask, reference) via static concatenation or additive adapters which cannot dynamically prioritize or suppress conflicting modalities, thus resulting in artifacts like color bleeding across mask boundaries, identity or style drift, and unpredictable behavior under multi-condition inputs. To address this, we propose Condition-Aware Routing of Experts (CARE-Edit) that aligns model computation with specific editing competencies. At its core, a lightweight latent-attention router assigns encoded diffusion tokens to four specialized experts--Text, Mask, Reference, and Base--based on multi-modal conditions and diffusion timesteps: (i) a Mask Repaint module first refines coarse user-defined masks for precise spatial guidance; (ii) the router applies sparse top-K selection to dynamically allocate computation to the most relevant experts; (iii) a Latent Mixture module subsequently fuses expert outputs, coherently integrating semantic, spatial, and stylistic information to the base images. Experiments validate CARE-Edit's strong performance on contextual editing tasks, including erasure, replacement, text-driven edits, and style transfer. Empirical analysis further reveals task-specific behavior of specialized experts, showcasing the importance of dynamic, condition-aware processing to mitigate multi-condition conflicts.

CARE-Edit: Enrutamiento Condicional de Expertos para la Edición Contextual de Imágenes

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Resumen

Support