MOSAIC: Multi-Subject Persoonlijke Generatie via Correspondentiebewuste Afstemming en Ontvlechting
MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement
September 2, 2025
Auteurs: Dong She, Siming Fu, Mushui Liu, Qiaoqiao Jin, Hualiang Wang, Mu Liu, Jidong Jiang
cs.AI
Samenvatting
Multi-subject gepersonaliseerde generatie brengt unieke uitdagingen met zich mee bij het behouden van identiteitsgetrouwheid en semantische samenhang bij het synthetiseren van afbeeldingen die zijn geconditioneerd op meerdere referentiepersonen. Bestaande methoden kampen vaak met identiteitsvermenging en attribuutlekkage door onvoldoende modellering van hoe verschillende personen zouden moeten interageren binnen gedeelde representatieruimtes. Wij presenteren MOSAIC, een representatiegericht framework dat multi-subject generatie herdenkt door expliciete semantische correspondentie en orthogonale feature-ontvlechting. Onze belangrijkste inzicht is dat multi-subject generatie precieze semantische uitlijning op representatieniveau vereist - precies weten welke regio's in de gegenereerde afbeelding aandacht moeten besteden aan welke delen van elke referentie. Om dit mogelijk te maken, introduceren we SemAlign-MS, een nauwkeurig geannoteerde dataset die fijnmazige semantische correspondenties biedt tussen meerdere referentiepersonen en doelafbeeldingen, wat voorheen niet beschikbaar was in dit domein. Op basis hiervan stellen we het semantische correspondentie-attentieverlies voor om precieze punt-naar-punt semantische uitlijning af te dwingen, waardoor een hoge consistentie van elke referentie naar de aangewezen regio's wordt gegarandeerd. Daarnaast ontwikkelen we het multi-referentie-ontvlechtingsverlies om verschillende personen in orthogonale attentiesubruimtes te duwen, waardoor feature-interferentie wordt voorkomen terwijl individuele identiteitskenmerken behouden blijven. Uitgebreide experimenten tonen aan dat MOSAIC state-of-the-art prestaties behaalt op meerdere benchmarks. Opmerkelijk is dat, terwijl bestaande methoden doorgaans afnemen bij meer dan 3 personen, MOSAIC een hoge getrouwheid behoudt bij 4+ referentiepersonen, wat nieuwe mogelijkheden opent voor complexe multi-subject synthese-toepassingen.
English
Multi-subject personalized generation presents unique challenges in
maintaining identity fidelity and semantic coherence when synthesizing images
conditioned on multiple reference subjects. Existing methods often suffer from
identity blending and attribute leakage due to inadequate modeling of how
different subjects should interact within shared representation spaces. We
present MOSAIC, a representation-centric framework that rethinks multi-subject
generation through explicit semantic correspondence and orthogonal feature
disentanglement. Our key insight is that multi-subject generation requires
precise semantic alignment at the representation level - knowing exactly which
regions in the generated image should attend to which parts of each reference.
To enable this, we introduce SemAlign-MS, a meticulously annotated dataset
providing fine-grained semantic correspondences between multiple reference
subjects and target images, previously unavailable in this domain. Building on
this foundation, we propose the semantic correspondence attention loss to
enforce precise point-to-point semantic alignment, ensuring high consistency
from each reference to its designated regions. Furthermore, we develop the
multi-reference disentanglement loss to push different subjects into orthogonal
attention subspaces, preventing feature interference while preserving
individual identity characteristics. Extensive experiments demonstrate that
MOSAIC achieves state-of-the-art performance on multiple benchmarks. Notably,
while existing methods typically degrade beyond 3 subjects, MOSAIC maintains
high fidelity with 4+ reference subjects, opening new possibilities for complex
multi-subject synthesis applications.