MultiCrafter: Generazione Fedele di Multi-Soggetti tramite Attenzione Spazialmente Disaccoppiata e Apprendimento per Rinforzo Consapevole dell'Identità
MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning
September 26, 2025
Autori: Tao Wu, Yibo Jiang, Yehao Lu, Zhizhong Wang, Zeyi Huang, Zequn Qin, Xi Li
cs.AI
Abstract
La generazione di immagini multi-soggetto mira a sintetizzare i soggetti forniti dall'utente in un'unica immagine, preservando la fedeltà dei soggetti, garantendo la coerenza con il prompt e allineandosi alle preferenze estetiche umane. Tuttavia, i metodi esistenti, in particolare quelli basati sul paradigma dell'In-Context-Learning, sono limitati dalla loro dipendenza da obiettivi semplici basati sulla ricostruzione, portando sia a una grave dispersione di attributi che compromette la fedeltà dei soggetti, sia a un mancato allineamento con le preferenze umane più sfumate. Per affrontare questo problema, proponiamo MultiCrafter, un framework che garantisce una generazione ad alta fedeltà e allineata alle preferenze. In primo luogo, scopriamo che la causa principale della dispersione di attributi è un significativo intreccio dell'attenzione tra diversi soggetti durante il processo di generazione. Pertanto, introduciamo una supervisione posizionale esplicita per separare chiaramente le regioni di attenzione per ciascun soggetto, mitigando efficacemente la dispersione di attributi. Per consentire al modello di pianificare accuratamente la regione di attenzione di diversi soggetti in scenari diversi, utilizziamo un'architettura Mixture-of-Experts per migliorare la capacità del modello, permettendo a diversi esperti di concentrarsi su scenari differenti. Infine, progettiamo un innovativo framework di apprendimento per rinforzo online per allineare il modello alle preferenze umane, caratterizzato da un meccanismo di punteggio per valutare accuratamente la fedeltà multi-soggetto e da una strategia di addestramento più stabile adattata all'architettura MoE. Gli esperimenti convalidano che il nostro framework migliora significativamente la fedeltà dei soggetti, allineandosi meglio alle preferenze umane.
English
Multi-subject image generation aims to synthesize user-provided subjects in a
single image while preserving subject fidelity, ensuring prompt consistency,
and aligning with human aesthetic preferences. However, existing methods,
particularly those built on the In-Context-Learning paradigm, are limited by
their reliance on simple reconstruction-based objectives, leading to both
severe attribute leakage that compromises subject fidelity and failing to align
with nuanced human preferences. To address this, we propose MultiCrafter, a
framework that ensures high-fidelity, preference-aligned generation. First, we
find that the root cause of attribute leakage is a significant entanglement of
attention between different subjects during the generation process. Therefore,
we introduce explicit positional supervision to explicitly separate attention
regions for each subject, effectively mitigating attribute leakage. To enable
the model to accurately plan the attention region of different subjects in
diverse scenarios, we employ a Mixture-of-Experts architecture to enhance the
model's capacity, allowing different experts to focus on different scenarios.
Finally, we design a novel online reinforcement learning framework to align the
model with human preferences, featuring a scoring mechanism to accurately
assess multi-subject fidelity and a more stable training strategy tailored for
the MoE architecture. Experiments validate that our framework significantly
improves subject fidelity while aligning with human preferences better.