ChatPaper.aiChatPaper

MultiCrafter: Generatie van meerdere onderwerpen met hoge kwaliteit via ruimtelijk ontwarde aandacht en identiteitsbewuste reinforcement learning

MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning

September 26, 2025
Auteurs: Tao Wu, Yibo Jiang, Yehao Lu, Zhizhong Wang, Zeyi Huang, Zequn Qin, Xi Li
cs.AI

Samenvatting

Multi-subject beeldgeneratie heeft als doel om door de gebruiker opgegeven onderwerpen in één afbeelding te synthetiseren, waarbij de trouw aan het onderwerp behouden blijft, consistentie met de prompt wordt gegarandeerd en wordt voldaan aan menselijke esthetische voorkeuren. Bestaande methoden, met name die gebaseerd op het In-Context-Learning paradigma, worden echter beperkt door hun afhankelijkheid van eenvoudige reconstructie-gebaseerde doelstellingen, wat leidt tot ernstige attribuutlekkage die de trouw aan het onderwerp aantast en niet voldoet aan subtiele menselijke voorkeuren. Om dit aan te pakken, stellen we MultiCrafter voor, een raamwerk dat zorgt voor generatie met hoge trouw en afstemming op voorkeuren. Ten eerste constateren we dat de oorzaak van attribuutlekkage een significante verstrengeling van aandacht tussen verschillende onderwerpen is tijdens het generatieproces. Daarom introduceren we expliciete positionele supervisie om de aandachtregio's voor elk onderwerp expliciet te scheiden, waardoor attribuutlekkage effectief wordt verminderd. Om het model in staat te stellen de aandachtregio van verschillende onderwerpen in diverse scenario's nauwkeurig te plannen, gebruiken we een Mixture-of-Experts architectuur om de capaciteit van het model te vergroten, waardoor verschillende experts zich kunnen richten op verschillende scenario's. Ten slotte ontwerpen we een nieuw online reinforcement learning raamwerk om het model af te stemmen op menselijke voorkeuren, met een scoringsmechanisme om de trouw aan meerdere onderwerpen nauwkeurig te beoordelen en een stabielere trainingsstrategie die is afgestemd op de MoE-architectuur. Experimenten valideren dat ons raamwerk de trouw aan het onderwerp aanzienlijk verbetert en beter aansluit bij menselijke voorkeuren.
English
Multi-subject image generation aims to synthesize user-provided subjects in a single image while preserving subject fidelity, ensuring prompt consistency, and aligning with human aesthetic preferences. However, existing methods, particularly those built on the In-Context-Learning paradigm, are limited by their reliance on simple reconstruction-based objectives, leading to both severe attribute leakage that compromises subject fidelity and failing to align with nuanced human preferences. To address this, we propose MultiCrafter, a framework that ensures high-fidelity, preference-aligned generation. First, we find that the root cause of attribute leakage is a significant entanglement of attention between different subjects during the generation process. Therefore, we introduce explicit positional supervision to explicitly separate attention regions for each subject, effectively mitigating attribute leakage. To enable the model to accurately plan the attention region of different subjects in diverse scenarios, we employ a Mixture-of-Experts architecture to enhance the model's capacity, allowing different experts to focus on different scenarios. Finally, we design a novel online reinforcement learning framework to align the model with human preferences, featuring a scoring mechanism to accurately assess multi-subject fidelity and a more stable training strategy tailored for the MoE architecture. Experiments validate that our framework significantly improves subject fidelity while aligning with human preferences better.
PDF62September 30, 2025