MOSAIC: Персонализированная генерация для множества предметных областей через согласованное выравнивание и разделение признаков
MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement
September 2, 2025
Авторы: Dong She, Siming Fu, Mushui Liu, Qiaoqiao Jin, Hualiang Wang, Mu Liu, Jidong Jiang
cs.AI
Аннотация
Мультисубъектная персонализированная генерация представляет собой уникальные вызовы в поддержании идентичности и семантической согласованности при синтезе изображений, обусловленных несколькими референсными субъектами. Существующие методы часто страдают от смешения идентичностей и утечки атрибутов из-за недостаточного моделирования взаимодействия различных субъектов в общих пространствах представлений. Мы представляем MOSAIC, фреймворк, ориентированный на представления, который переосмысливает мультисубъектную генерацию через явное семантическое соответствие и ортогональное разделение признаков. Наше ключевое понимание заключается в том, что мультисубъектная генерация требует точного семантического выравнивания на уровне представлений — знания того, какие именно области в сгенерированном изображении должны соответствовать каким частям каждого референса. Для этого мы представляем SemAlign-MS, тщательно аннотированный набор данных, предоставляющий детализированные семантические соответствия между несколькими референсными субъектами и целевыми изображениями, ранее недоступные в этой области. На основе этого мы предлагаем функцию потерь внимания семантического соответствия для обеспечения точного точечного семантического выравнивания, гарантируя высокую согласованность от каждого референса к его назначенным областям. Кроме того, мы разрабатываем функцию потерь разделения по множеству референсов, чтобы направлять разные субъекты в ортогональные подпространства внимания, предотвращая интерференцию признаков при сохранении индивидуальных характеристик идентичности. Многочисленные эксперименты демонстрируют, что MOSAIC достигает наилучших результатов на нескольких бенчмарках. Примечательно, что в то время как существующие методы обычно ухудшаются при работе с более чем 3 субъектами, MOSAIC сохраняет высокую точность при использовании 4+ референсных субъектов, открывая новые возможности для сложных приложений мультисубъектного синтеза.
English
Multi-subject personalized generation presents unique challenges in
maintaining identity fidelity and semantic coherence when synthesizing images
conditioned on multiple reference subjects. Existing methods often suffer from
identity blending and attribute leakage due to inadequate modeling of how
different subjects should interact within shared representation spaces. We
present MOSAIC, a representation-centric framework that rethinks multi-subject
generation through explicit semantic correspondence and orthogonal feature
disentanglement. Our key insight is that multi-subject generation requires
precise semantic alignment at the representation level - knowing exactly which
regions in the generated image should attend to which parts of each reference.
To enable this, we introduce SemAlign-MS, a meticulously annotated dataset
providing fine-grained semantic correspondences between multiple reference
subjects and target images, previously unavailable in this domain. Building on
this foundation, we propose the semantic correspondence attention loss to
enforce precise point-to-point semantic alignment, ensuring high consistency
from each reference to its designated regions. Furthermore, we develop the
multi-reference disentanglement loss to push different subjects into orthogonal
attention subspaces, preventing feature interference while preserving
individual identity characteristics. Extensive experiments demonstrate that
MOSAIC achieves state-of-the-art performance on multiple benchmarks. Notably,
while existing methods typically degrade beyond 3 subjects, MOSAIC maintains
high fidelity with 4+ reference subjects, opening new possibilities for complex
multi-subject synthesis applications.