ChatPaper.aiChatPaper

MultiCrafter: Generación de Múltiples Sujetos de Alta Fidelidad mediante Atención Espacialmente Desenredada y Aprendizaje por Refuerzo Consciente de la Identidad

MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning

September 26, 2025
Autores: Tao Wu, Yibo Jiang, Yehao Lu, Zhizhong Wang, Zeyi Huang, Zequn Qin, Xi Li
cs.AI

Resumen

La generación de imágenes multi-sujeto tiene como objetivo sintetizar sujetos proporcionados por el usuario en una sola imagen, preservando la fidelidad de los sujetos, asegurando la consistencia con las indicaciones y alineándose con las preferencias estéticas humanas. Sin embargo, los métodos existentes, particularmente aquellos basados en el paradigma de Aprendizaje en Contexto (In-Context-Learning), están limitados por su dependencia de objetivos simples basados en reconstrucción, lo que conduce tanto a una fuga severa de atributos que compromete la fidelidad de los sujetos como a una falta de alineación con las preferencias humanas más sutiles. Para abordar esto, proponemos MultiCrafter, un marco que asegura una generación de alta fidelidad y alineada con las preferencias. En primer lugar, descubrimos que la causa principal de la fuga de atributos es un entrelazamiento significativo de la atención entre diferentes sujetos durante el proceso de generación. Por lo tanto, introducimos una supervisión posicional explícita para separar claramente las regiones de atención para cada sujeto, mitigando efectivamente la fuga de atributos. Para permitir que el modelo planifique con precisión la región de atención de diferentes sujetos en diversos escenarios, empleamos una arquitectura de Mezcla de Expertos (Mixture-of-Experts) para mejorar la capacidad del modelo, permitiendo que diferentes expertos se enfoquen en diferentes escenarios. Finalmente, diseñamos un novedoso marco de aprendizaje por refuerzo en línea para alinear el modelo con las preferencias humanas, que incluye un mecanismo de puntuación para evaluar con precisión la fidelidad multi-sujeto y una estrategia de entrenamiento más estable adaptada a la arquitectura MoE. Los experimentos validan que nuestro marco mejora significativamente la fidelidad de los sujetos mientras se alinea mejor con las preferencias humanas.
English
Multi-subject image generation aims to synthesize user-provided subjects in a single image while preserving subject fidelity, ensuring prompt consistency, and aligning with human aesthetic preferences. However, existing methods, particularly those built on the In-Context-Learning paradigm, are limited by their reliance on simple reconstruction-based objectives, leading to both severe attribute leakage that compromises subject fidelity and failing to align with nuanced human preferences. To address this, we propose MultiCrafter, a framework that ensures high-fidelity, preference-aligned generation. First, we find that the root cause of attribute leakage is a significant entanglement of attention between different subjects during the generation process. Therefore, we introduce explicit positional supervision to explicitly separate attention regions for each subject, effectively mitigating attribute leakage. To enable the model to accurately plan the attention region of different subjects in diverse scenarios, we employ a Mixture-of-Experts architecture to enhance the model's capacity, allowing different experts to focus on different scenarios. Finally, we design a novel online reinforcement learning framework to align the model with human preferences, featuring a scoring mechanism to accurately assess multi-subject fidelity and a more stable training strategy tailored for the MoE architecture. Experiments validate that our framework significantly improves subject fidelity while aligning with human preferences better.
PDF52September 30, 2025