CARE-Edit: Roteamento Condicional de Especialistas para Edição Contextual de Imagens

Resumo

Os editores de difusão unificados frequentemente dependem de uma estrutura fixa e compartilhada para tarefas diversas, sofrendo com interferência entre tarefas e má adaptação a demandas heterogêneas (por exemplo, local vs. global, semântica vs. fotométrica). Em particular, as variantes predominantes de ControlNet e OmniControl combinam múltiplos sinais de condicionamento (por exemplo, texto, máscara, referência) através de concatenação estática ou adaptadores aditivos que não podem priorizar ou suprimir dinamicamente modalidades conflitantes, resultando assim em artefatos como sangramento de cor através de fronteiras de máscara, deriva de identidade ou estilo, e comportamento imprevisível sob entradas de múltiplas condições. Para resolver isso, propomos o Roteamento Consciente da Condição de Especialistas (CARE-Edit), que alinha a computação do modelo com competências de edição específicas. Em seu núcleo, um roteador de atenção latente leve atribui tokens de difusão codificados a quatro especialistas especializados – Texto, Máscara, Referência e Base – com base em condições multimodais e etapas de tempo de difusão: (i) um módulo de Repintura por Máscara primeiro refina máscaras grosseiras definidas pelo usuário para orientação espacial precisa; (ii) o roteador aplica seleção esparsa top-K para alocar dinamicamente a computação para os especialistas mais relevantes; (iii) um módulo de Mistura Latente subsequentemente funde as saídas dos especialistas, integrando coerentemente informações semânticas, espaciais e estilísticas às imagens base. Experimentos validam o forte desempenho do CARE-Edit em tarefas de edição contextual, incluindo remoção, substituição, edições guiadas por texto e transferência de estilo. A análise empírica revela ainda o comportamento específico por tarefa dos especialistas especializados, mostrando a importância do processamento dinâmico e consciente da condição para mitigar conflitos de múltiplas condições.

English

Unified diffusion editors often rely on a fixed, shared backbone for diverse tasks, suffering from task interference and poor adaptation to heterogeneous demands (e.g., local vs global, semantic vs photometric). In particular, prevalent ControlNet and OmniControl variants combine multiple conditioning signals (e.g., text, mask, reference) via static concatenation or additive adapters which cannot dynamically prioritize or suppress conflicting modalities, thus resulting in artifacts like color bleeding across mask boundaries, identity or style drift, and unpredictable behavior under multi-condition inputs. To address this, we propose Condition-Aware Routing of Experts (CARE-Edit) that aligns model computation with specific editing competencies. At its core, a lightweight latent-attention router assigns encoded diffusion tokens to four specialized experts--Text, Mask, Reference, and Base--based on multi-modal conditions and diffusion timesteps: (i) a Mask Repaint module first refines coarse user-defined masks for precise spatial guidance; (ii) the router applies sparse top-K selection to dynamically allocate computation to the most relevant experts; (iii) a Latent Mixture module subsequently fuses expert outputs, coherently integrating semantic, spatial, and stylistic information to the base images. Experiments validate CARE-Edit's strong performance on contextual editing tasks, including erasure, replacement, text-driven edits, and style transfer. Empirical analysis further reveals task-specific behavior of specialized experts, showcasing the importance of dynamic, condition-aware processing to mitigate multi-condition conflicts.