MultiCrafter: Hochauflösende Multi-Subjekt-Generierung durch räumlich entkoppelte Aufmerksamkeit und identitätsbewusstes Reinforcement Learning
MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning
September 26, 2025
papers.authors: Tao Wu, Yibo Jiang, Yehao Lu, Zhizhong Wang, Zeyi Huang, Zequn Qin, Xi Li
cs.AI
papers.abstract
Die Multi-Subjekt-Bildgenerierung zielt darauf ab, vom Benutzer bereitgestellte Subjekte in einem einzelnen Bild zu synthetisieren, wobei die Subjekttreue gewahrt, die Konsistenz mit dem Prompt sichergestellt und die ästhetischen Präferenzen des Menschen berücksichtigt werden. Bestehende Methoden, insbesondere solche, die auf dem In-Context-Learning-Paradigma basieren, sind jedoch durch ihre Abhängigkeit von einfachen rekonstruktionsbasierten Zielen eingeschränkt, was sowohl zu schwerwiegenden Attributlecks führt, die die Subjekttreue beeinträchtigen, als auch daran scheitert, fein abgestimmte menschliche Präferenzen zu berücksichtigen. Um dies zu beheben, schlagen wir MultiCrafter vor, ein Framework, das eine hochwertige, präferenzorientierte Generierung gewährleistet. Zunächst stellen wir fest, dass die Hauptursache für Attributlecks eine signifikante Verflechtung der Aufmerksamkeit zwischen verschiedenen Subjekten während des Generierungsprozesses ist. Daher führen wir eine explizite Positionsüberwachung ein, um die Aufmerksamkeitsbereiche für jedes Subjekt klar zu trennen und so Attributlecks effektiv zu mindern. Um dem Modell zu ermöglichen, den Aufmerksamkeitsbereich verschiedener Subjekte in unterschiedlichen Szenarien präzise zu planen, verwenden wir eine Mixture-of-Experts-Architektur, um die Kapazität des Modells zu steigern, sodass verschiedene Experten sich auf unterschiedliche Szenarien konzentrieren können. Schließlich entwickeln wir ein neuartiges Online-Reinforcement-Learning-Framework, um das Modell mit menschlichen Präferenzen in Einklang zu bringen, das einen Bewertungsmechanismus zur genauen Beurteilung der Multi-Subjekt-Treue und eine stabilere Trainingsstrategie, die speziell für die MoE-Architektur zugeschnitten ist, umfasst. Experimente bestätigen, dass unser Framework die Subjekttreue erheblich verbessert und gleichzeitig besser mit menschlichen Präferenzen übereinstimmt.
English
Multi-subject image generation aims to synthesize user-provided subjects in a
single image while preserving subject fidelity, ensuring prompt consistency,
and aligning with human aesthetic preferences. However, existing methods,
particularly those built on the In-Context-Learning paradigm, are limited by
their reliance on simple reconstruction-based objectives, leading to both
severe attribute leakage that compromises subject fidelity and failing to align
with nuanced human preferences. To address this, we propose MultiCrafter, a
framework that ensures high-fidelity, preference-aligned generation. First, we
find that the root cause of attribute leakage is a significant entanglement of
attention between different subjects during the generation process. Therefore,
we introduce explicit positional supervision to explicitly separate attention
regions for each subject, effectively mitigating attribute leakage. To enable
the model to accurately plan the attention region of different subjects in
diverse scenarios, we employ a Mixture-of-Experts architecture to enhance the
model's capacity, allowing different experts to focus on different scenarios.
Finally, we design a novel online reinforcement learning framework to align the
model with human preferences, featuring a scoring mechanism to accurately
assess multi-subject fidelity and a more stable training strategy tailored for
the MoE architecture. Experiments validate that our framework significantly
improves subject fidelity while aligning with human preferences better.