MOSAIC: Multi-Subject Persoonlijke Generatie via Correspondentiebewuste Afstemming en Ontvlechting

Samenvatting

Multi-subject gepersonaliseerde generatie brengt unieke uitdagingen met zich mee bij het behouden van identiteitsgetrouwheid en semantische samenhang bij het synthetiseren van afbeeldingen die zijn geconditioneerd op meerdere referentiepersonen. Bestaande methoden kampen vaak met identiteitsvermenging en attribuutlekkage door onvoldoende modellering van hoe verschillende personen zouden moeten interageren binnen gedeelde representatieruimtes. Wij presenteren MOSAIC, een representatiegericht framework dat multi-subject generatie herdenkt door expliciete semantische correspondentie en orthogonale feature-ontvlechting. Onze belangrijkste inzicht is dat multi-subject generatie precieze semantische uitlijning op representatieniveau vereist - precies weten welke regio's in de gegenereerde afbeelding aandacht moeten besteden aan welke delen van elke referentie. Om dit mogelijk te maken, introduceren we SemAlign-MS, een nauwkeurig geannoteerde dataset die fijnmazige semantische correspondenties biedt tussen meerdere referentiepersonen en doelafbeeldingen, wat voorheen niet beschikbaar was in dit domein. Op basis hiervan stellen we het semantische correspondentie-attentieverlies voor om precieze punt-naar-punt semantische uitlijning af te dwingen, waardoor een hoge consistentie van elke referentie naar de aangewezen regio's wordt gegarandeerd. Daarnaast ontwikkelen we het multi-referentie-ontvlechtingsverlies om verschillende personen in orthogonale attentiesubruimtes te duwen, waardoor feature-interferentie wordt voorkomen terwijl individuele identiteitskenmerken behouden blijven. Uitgebreide experimenten tonen aan dat MOSAIC state-of-the-art prestaties behaalt op meerdere benchmarks. Opmerkelijk is dat, terwijl bestaande methoden doorgaans afnemen bij meer dan 3 personen, MOSAIC een hoge getrouwheid behoudt bij 4+ referentiepersonen, wat nieuwe mogelijkheden opent voor complexe multi-subject synthese-toepassingen.

English

Multi-subject personalized generation presents unique challenges in maintaining identity fidelity and semantic coherence when synthesizing images conditioned on multiple reference subjects. Existing methods often suffer from identity blending and attribute leakage due to inadequate modeling of how different subjects should interact within shared representation spaces. We present MOSAIC, a representation-centric framework that rethinks multi-subject generation through explicit semantic correspondence and orthogonal feature disentanglement. Our key insight is that multi-subject generation requires precise semantic alignment at the representation level - knowing exactly which regions in the generated image should attend to which parts of each reference. To enable this, we introduce SemAlign-MS, a meticulously annotated dataset providing fine-grained semantic correspondences between multiple reference subjects and target images, previously unavailable in this domain. Building on this foundation, we propose the semantic correspondence attention loss to enforce precise point-to-point semantic alignment, ensuring high consistency from each reference to its designated regions. Furthermore, we develop the multi-reference disentanglement loss to push different subjects into orthogonal attention subspaces, preventing feature interference while preserving individual identity characteristics. Extensive experiments demonstrate that MOSAIC achieves state-of-the-art performance on multiple benchmarks. Notably, while existing methods typically degrade beyond 3 subjects, MOSAIC maintains high fidelity with 4+ reference subjects, opening new possibilities for complex multi-subject synthesis applications.

MOSAIC: Multi-Subject Persoonlijke Generatie via Correspondentiebewuste Afstemming en Ontvlechting

MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement

Samenvatting

Support