PaCo-RL: Развитие обучения с подкреплением для обеспечения согласованной генерации изображений с помощью моделирования попарных вознаграждений
PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling
December 2, 2025
Авторы: Bowen Ping, Chengyou Jia, Minnan Luo, Changliang Xia, Xin Shen, Zhuohang Dang, Hangwei Qian
cs.AI
Аннотация
Согласованная генерация изображений требует точного сохранения идентичностей, стилей и логической связности между несколькими изображениями, что крайне важно для таких приложений, как создание визуальных нарративов и дизайн персонажей. Подходы с обучением с учителем сталкиваются с трудностями при решении этой задачи из-за отсутствия крупномасштабных наборов данных, фиксирующих визуальную согласованность, и сложности моделирования перцептивных предпочтений человека. В данной статье мы доказываем, что обучение с подкреплением (RL) представляет собой перспективную альтернативу, позволяя моделям осваивать сложные и субъективные визуальные критерии без использования данных. Для достижения этой цели мы представляем PaCo-RL — комплексную framework, объединяющую специализированную модель вознаграждения за согласованность с эффективным RL-алгоритмом. Первый компонент, PaCo-Reward, представляет собой попарный оценщик согласованности, обученный на крупномасштабном наборе данных, созданном с помощью автоматизированного парного сопоставления субизображений. Он оценивает согласованность посредством генеративного авторегрессионного механизма оценки, усиленного инструкциями, учитывающими задачу, и причинными обоснованиями (CoT). Второй компонент, PaCo-GRPO, использует новую стратегию оптимизации с разделением по разрешению для существенного снижения затрат на RL, а также механизм агрегации множественных вознаграждений с логарифмическим ограничением, обеспечивающий сбалансированную и стабильную оптимизацию вознаграждений. Многочисленные эксперименты по двум репрезентативным подзадачам показывают, что PaCo-Reward значительно улучшает соответствие человеческому восприятию визуальной согласованности, а PaCo-GRPO демонстрирует наилучшие показатели согласованности при повышенной эффективности и стабильности обучения. В совокупности эти результаты подчеркивают потенциал PaCo-RL как практичного и масштабируемого решения для согласованной генерации изображений. Страница проекта доступна по адресу https://x-gengroup.github.io/HomePage_PaCo-RL/.
English
Consistent image generation requires faithfully preserving identities, styles, and logical coherence across multiple images, which is essential for applications such as storytelling and character design. Supervised training approaches struggle with this task due to the lack of large-scale datasets capturing visual consistency and the complexity of modeling human perceptual preferences. In this paper, we argue that reinforcement learning (RL) offers a promising alternative by enabling models to learn complex and subjective visual criteria in a data-free manner. To achieve this, we introduce PaCo-RL, a comprehensive framework that combines a specialized consistency reward model with an efficient RL algorithm. The first component, PaCo-Reward, is a pairwise consistency evaluator trained on a large-scale dataset constructed via automated sub-figure pairing. It evaluates consistency through a generative, autoregressive scoring mechanism enhanced by task-aware instructions and CoT reasons. The second component, PaCo-GRPO, leverages a novel resolution-decoupled optimization strategy to substantially reduce RL cost, alongside a log-tamed multi-reward aggregation mechanism that ensures balanced and stable reward optimization. Extensive experiments across the two representative subtasks show that PaCo-Reward significantly improves alignment with human perceptions of visual consistency, and PaCo-GRPO achieves state-of-the-art consistency performance with improved training efficiency and stability. Together, these results highlight the promise of PaCo-RL as a practical and scalable solution for consistent image generation. The project page is available at https://x-gengroup.github.io/HomePage_PaCo-RL/.