ChatPaper.aiChatPaper

MultiCrafter: Высококачественная генерация множества объектов с использованием пространственно разделенного внимания и обучения с подкреплением, учитывающего идентичность

MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning

September 26, 2025
Авторы: Tao Wu, Yibo Jiang, Yehao Lu, Zhizhong Wang, Zeyi Huang, Zequn Qin, Xi Li
cs.AI

Аннотация

Генерация изображений с несколькими объектами направлена на синтез предоставленных пользователем объектов в одном изображении с сохранением их точности, обеспечением согласованности с запросом и соответствием эстетическим предпочтениям человека. Однако существующие методы, особенно те, которые основаны на парадигме In-Context Learning, ограничены своей зависимостью от простых реконструкционных целей, что приводит как к значительной утечке атрибутов, снижающей точность объектов, так и к несоответствию тонким предпочтениям человека. Для решения этой проблемы мы предлагаем MultiCrafter — фреймворк, который обеспечивает генерацию с высокой точностью и соответствием предпочтениям. Во-первых, мы выяснили, что коренной причиной утечки атрибутов является значительное переплетение внимания между различными объектами в процессе генерации. Поэтому мы вводим явное позиционное управление для явного разделения областей внимания для каждого объекта, что эффективно устраняет утечку атрибутов. Чтобы модель могла точно планировать области внимания для разных объектов в различных сценариях, мы используем архитектуру Mixture-of-Experts, которая повышает способность модели, позволяя разным экспертам сосредоточиться на разных сценариях. Наконец, мы разрабатываем новый фреймворк онлайн-обучения с подкреплением для согласования модели с предпочтениями человека, включая механизм оценки для точного измерения точности нескольких объектов и более стабильную стратегию обучения, адаптированную для архитектуры MoE. Эксперименты подтверждают, что наш фреймворк значительно улучшает точность объектов и лучше соответствует предпочтениям человека.
English
Multi-subject image generation aims to synthesize user-provided subjects in a single image while preserving subject fidelity, ensuring prompt consistency, and aligning with human aesthetic preferences. However, existing methods, particularly those built on the In-Context-Learning paradigm, are limited by their reliance on simple reconstruction-based objectives, leading to both severe attribute leakage that compromises subject fidelity and failing to align with nuanced human preferences. To address this, we propose MultiCrafter, a framework that ensures high-fidelity, preference-aligned generation. First, we find that the root cause of attribute leakage is a significant entanglement of attention between different subjects during the generation process. Therefore, we introduce explicit positional supervision to explicitly separate attention regions for each subject, effectively mitigating attribute leakage. To enable the model to accurately plan the attention region of different subjects in diverse scenarios, we employ a Mixture-of-Experts architecture to enhance the model's capacity, allowing different experts to focus on different scenarios. Finally, we design a novel online reinforcement learning framework to align the model with human preferences, featuring a scoring mechanism to accurately assess multi-subject fidelity and a more stable training strategy tailored for the MoE architecture. Experiments validate that our framework significantly improves subject fidelity while aligning with human preferences better.
PDF52September 30, 2025