MultiCrafter: Generazione Fedele di Multi-Soggetti tramite Attenzione Spazialmente Disaccoppiata e Apprendimento per Rinforzo Consapevole dell'Identità

Abstract

La generazione di immagini multi-soggetto mira a sintetizzare i soggetti forniti dall'utente in un'unica immagine, preservando la fedeltà dei soggetti, garantendo la coerenza con il prompt e allineandosi alle preferenze estetiche umane. Tuttavia, i metodi esistenti, in particolare quelli basati sul paradigma dell'In-Context-Learning, sono limitati dalla loro dipendenza da obiettivi semplici basati sulla ricostruzione, portando sia a una grave dispersione di attributi che compromette la fedeltà dei soggetti, sia a un mancato allineamento con le preferenze umane più sfumate. Per affrontare questo problema, proponiamo MultiCrafter, un framework che garantisce una generazione ad alta fedeltà e allineata alle preferenze. In primo luogo, scopriamo che la causa principale della dispersione di attributi è un significativo intreccio dell'attenzione tra diversi soggetti durante il processo di generazione. Pertanto, introduciamo una supervisione posizionale esplicita per separare chiaramente le regioni di attenzione per ciascun soggetto, mitigando efficacemente la dispersione di attributi. Per consentire al modello di pianificare accuratamente la regione di attenzione di diversi soggetti in scenari diversi, utilizziamo un'architettura Mixture-of-Experts per migliorare la capacità del modello, permettendo a diversi esperti di concentrarsi su scenari differenti. Infine, progettiamo un innovativo framework di apprendimento per rinforzo online per allineare il modello alle preferenze umane, caratterizzato da un meccanismo di punteggio per valutare accuratamente la fedeltà multi-soggetto e da una strategia di addestramento più stabile adattata all'architettura MoE. Gli esperimenti convalidano che il nostro framework migliora significativamente la fedeltà dei soggetti, allineandosi meglio alle preferenze umane.

English

Multi-subject image generation aims to synthesize user-provided subjects in a single image while preserving subject fidelity, ensuring prompt consistency, and aligning with human aesthetic preferences. However, existing methods, particularly those built on the In-Context-Learning paradigm, are limited by their reliance on simple reconstruction-based objectives, leading to both severe attribute leakage that compromises subject fidelity and failing to align with nuanced human preferences. To address this, we propose MultiCrafter, a framework that ensures high-fidelity, preference-aligned generation. First, we find that the root cause of attribute leakage is a significant entanglement of attention between different subjects during the generation process. Therefore, we introduce explicit positional supervision to explicitly separate attention regions for each subject, effectively mitigating attribute leakage. To enable the model to accurately plan the attention region of different subjects in diverse scenarios, we employ a Mixture-of-Experts architecture to enhance the model's capacity, allowing different experts to focus on different scenarios. Finally, we design a novel online reinforcement learning framework to align the model with human preferences, featuring a scoring mechanism to accurately assess multi-subject fidelity and a more stable training strategy tailored for the MoE architecture. Experiments validate that our framework significantly improves subject fidelity while aligning with human preferences better.

MultiCrafter: Generazione Fedele di Multi-Soggetti tramite Attenzione Spazialmente Disaccoppiata e Apprendimento per Rinforzo Consapevole dell'Identità

MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning

Abstract

Support