ChatPaper.aiChatPaper

MultiCrafter : Génération haute fidélité de multiples sujets via une attention spatialement désentrelacée et un apprentissage par renforcement conscient de l'identité

MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning

September 26, 2025
papers.authors: Tao Wu, Yibo Jiang, Yehao Lu, Zhizhong Wang, Zeyi Huang, Zequn Qin, Xi Li
cs.AI

papers.abstract

La génération d'images multi-sujets vise à synthétiser des sujets fournis par l'utilisateur dans une seule image tout en préservant la fidélité des sujets, en assurant la cohérence avec l'invite et en s'alignant sur les préférences esthétiques humaines. Cependant, les méthodes existantes, en particulier celles basées sur le paradigme d'apprentissage en contexte (In-Context-Learning), sont limitées par leur dépendance à des objectifs simples de reconstruction, ce qui entraîne à la fois une fuite sévère d'attributs compromettant la fidélité des sujets et un échec à s'aligner sur les préférences humaines nuancées. Pour remédier à cela, nous proposons MultiCrafter, un cadre qui garantit une génération de haute fidélité et alignée sur les préférences. Tout d'abord, nous identifions que la cause principale de la fuite d'attributs est un enchevêtrement significatif de l'attention entre différents sujets lors du processus de génération. Par conséquent, nous introduisons une supervision positionnelle explicite pour séparer clairement les régions d'attention pour chaque sujet, atténuant ainsi efficacement la fuite d'attributs. Pour permettre au modèle de planifier avec précision la région d'attention des différents sujets dans divers scénarios, nous utilisons une architecture de type Mixture-of-Experts (MoE) pour améliorer la capacité du modèle, permettant à différents experts de se concentrer sur différents scénarios. Enfin, nous concevons un nouveau cadre d'apprentissage par renforcement en ligne pour aligner le modèle sur les préférences humaines, comprenant un mécanisme de notation pour évaluer avec précision la fidélité multi-sujets et une stratégie d'entraînement plus stable adaptée à l'architecture MoE. Les expériences valident que notre cadre améliore significativement la fidélité des sujets tout en s'alignant mieux sur les préférences humaines.
English
Multi-subject image generation aims to synthesize user-provided subjects in a single image while preserving subject fidelity, ensuring prompt consistency, and aligning with human aesthetic preferences. However, existing methods, particularly those built on the In-Context-Learning paradigm, are limited by their reliance on simple reconstruction-based objectives, leading to both severe attribute leakage that compromises subject fidelity and failing to align with nuanced human preferences. To address this, we propose MultiCrafter, a framework that ensures high-fidelity, preference-aligned generation. First, we find that the root cause of attribute leakage is a significant entanglement of attention between different subjects during the generation process. Therefore, we introduce explicit positional supervision to explicitly separate attention regions for each subject, effectively mitigating attribute leakage. To enable the model to accurately plan the attention region of different subjects in diverse scenarios, we employ a Mixture-of-Experts architecture to enhance the model's capacity, allowing different experts to focus on different scenarios. Finally, we design a novel online reinforcement learning framework to align the model with human preferences, featuring a scoring mechanism to accurately assess multi-subject fidelity and a more stable training strategy tailored for the MoE architecture. Experiments validate that our framework significantly improves subject fidelity while aligning with human preferences better.
PDF52September 30, 2025