CARE-Edit: Условно-зависимая маршрутизация экспертов для контекстного редактирования изображений

Аннотация

Унифицированные редакторы диффузии часто используют фиксированный общий базовый блок для разнородных задач, что приводит к интерференции задач и плохой адаптации к разнородным требованиям (например, локальные против глобальных, семантические против фотометрических). В частности, распространенные варианты ControlNet и OmniControl комбинируют множественные управляющие сигналы (например, текст, маску, референс) через статичную конкатенацию или аддитивные адаптеры, которые не могут динамически приоритизировать или подавлять конфликтующие модальности. Это приводит к артефактам, таким как просачивание цвета через границы масок, дрейф идентичности или стиля, и непредсказуемому поведению при многомодальных входах. Чтобы решить эту проблему, мы предлагаем метод Condition-Aware Routing of Experts (CARE-Edit), который согласует вычислительную модель с конкретными компетенциями редактирования. В основе метода лежит легковесный латентно-внимательный маршрутизатор, который распределяет закодированные токены диффузии между четырьмя специализированными экспертами — Текст, Маска, Референс и Базовый — на основе многомодальных условий и временных шагов диффузии: (i) модуль Mask Repaint сначала уточняет грубые пользовательские маски для точного пространственного guidance; (ii) маршрутизатор применяет разреженный top-K выбор для динамического распределения вычислений между наиболее релевантными экспертами; (iii) модуль Latent Mixture затем объединяет выходы экспертов, согласованно интегрируя семантическую, пространственную и стилистическую информацию в базовые изображения. Эксперименты подтверждают высокую производительность CARE-Edit на задачах контекстного редактирования, включая удаление, замену, текстовое редактирование и перенос стиля. Эмпирический анализ дополнительно раскрывает специфичное для задач поведение специализированных экспертов, демонстрируя важность динамической, обусловленной условиями обработки для смягчения конфликтов при многомодальных условиях.

English

Unified diffusion editors often rely on a fixed, shared backbone for diverse tasks, suffering from task interference and poor adaptation to heterogeneous demands (e.g., local vs global, semantic vs photometric). In particular, prevalent ControlNet and OmniControl variants combine multiple conditioning signals (e.g., text, mask, reference) via static concatenation or additive adapters which cannot dynamically prioritize or suppress conflicting modalities, thus resulting in artifacts like color bleeding across mask boundaries, identity or style drift, and unpredictable behavior under multi-condition inputs. To address this, we propose Condition-Aware Routing of Experts (CARE-Edit) that aligns model computation with specific editing competencies. At its core, a lightweight latent-attention router assigns encoded diffusion tokens to four specialized experts--Text, Mask, Reference, and Base--based on multi-modal conditions and diffusion timesteps: (i) a Mask Repaint module first refines coarse user-defined masks for precise spatial guidance; (ii) the router applies sparse top-K selection to dynamically allocate computation to the most relevant experts; (iii) a Latent Mixture module subsequently fuses expert outputs, coherently integrating semantic, spatial, and stylistic information to the base images. Experiments validate CARE-Edit's strong performance on contextual editing tasks, including erasure, replacement, text-driven edits, and style transfer. Empirical analysis further reveals task-specific behavior of specialized experts, showcasing the importance of dynamic, condition-aware processing to mitigate multi-condition conflicts.

CARE-Edit: Условно-зависимая маршрутизация экспертов для контекстного редактирования изображений

CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Аннотация

Support