ChatPaper.aiChatPaper

MultiCrafter: Geração de Múltiplos Sujeitos de Alta Fidelidade por meio de Atenção Espacialmente Desacoplada e Aprendizado por Reforço com Consciência de Identidade

MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning

September 26, 2025
Autores: Tao Wu, Yibo Jiang, Yehao Lu, Zhizhong Wang, Zeyi Huang, Zequn Qin, Xi Li
cs.AI

Resumo

A geração de imagens com múltiplos sujeitos visa sintetizar os sujeitos fornecidos pelo usuário em uma única imagem, preservando a fidelidade dos sujeitos, garantindo a consistência do prompt e alinhando-se às preferências estéticas humanas. No entanto, os métodos existentes, particularmente aqueles baseados no paradigma de Aprendizado em Contexto (In-Context-Learning), são limitados por sua dependência de objetivos simples baseados em reconstrução, resultando tanto em vazamento severo de atributos que compromete a fidelidade dos sujeitos quanto em falhas para alinhar-se às nuances das preferências humanas. Para resolver isso, propomos o MultiCrafter, um framework que garante geração de alta fidelidade e alinhada às preferências. Primeiro, descobrimos que a causa raiz do vazamento de atributos é um emaranhamento significativo da atenção entre diferentes sujeitos durante o processo de geração. Portanto, introduzimos supervisão posicional explícita para separar claramente as regiões de atenção para cada sujeito, mitigando efetivamente o vazamento de atributos. Para permitir que o modelo planeje com precisão a região de atenção de diferentes sujeitos em cenários diversos, empregamos uma arquitetura de Mistura de Especialistas (Mixture-of-Experts) para aumentar a capacidade do modelo, permitindo que diferentes especialistas se concentrem em diferentes cenários. Por fim, projetamos um novo framework de aprendizado por reforço online para alinhar o modelo às preferências humanas, apresentando um mecanismo de pontuação para avaliar com precisão a fidelidade de múltiplos sujeitos e uma estratégia de treinamento mais estável adaptada à arquitetura MoE. Experimentos validam que nosso framework melhora significativamente a fidelidade dos sujeitos enquanto se alinha melhor às preferências humanas.
English
Multi-subject image generation aims to synthesize user-provided subjects in a single image while preserving subject fidelity, ensuring prompt consistency, and aligning with human aesthetic preferences. However, existing methods, particularly those built on the In-Context-Learning paradigm, are limited by their reliance on simple reconstruction-based objectives, leading to both severe attribute leakage that compromises subject fidelity and failing to align with nuanced human preferences. To address this, we propose MultiCrafter, a framework that ensures high-fidelity, preference-aligned generation. First, we find that the root cause of attribute leakage is a significant entanglement of attention between different subjects during the generation process. Therefore, we introduce explicit positional supervision to explicitly separate attention regions for each subject, effectively mitigating attribute leakage. To enable the model to accurately plan the attention region of different subjects in diverse scenarios, we employ a Mixture-of-Experts architecture to enhance the model's capacity, allowing different experts to focus on different scenarios. Finally, we design a novel online reinforcement learning framework to align the model with human preferences, featuring a scoring mechanism to accurately assess multi-subject fidelity and a more stable training strategy tailored for the MoE architecture. Experiments validate that our framework significantly improves subject fidelity while aligning with human preferences better.
PDF62September 30, 2025