PaCo-RL: Avances en el Aprendizaje por Refuerzo para la Generación Consistente de Imágenes con Modelado de Recompensa por Pares
PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling
December 2, 2025
Autores: Bowen Ping, Chengyou Jia, Minnan Luo, Changliang Xia, Xin Shen, Zhuohang Dang, Hangwei Qian
cs.AI
Resumen
La generación consistente de imágenes requiere preservar fielmente identidades, estilos y coherencia lógica a través de múltiples imágenes, lo cual es esencial para aplicaciones como narrativa visual y diseño de personajes. Los enfoques de entrenamiento supervisado enfrentan dificultades en esta tarea debido a la escasez de conjuntos de datos a gran escala que capturen consistencia visual y la complejidad de modelar preferencias perceptuales humanas. En este artículo, sostenemos que el aprendizaje por refuerzo (RL) ofrece una alternativa prometedora al permitir que los modelos aprendan criterios visuales complejos y subjetivos sin necesidad de datos. Para lograrlo, presentamos PaCo-RL, un marco integral que combina un modelo de recompensa de consistencia especializado con un algoritmo de RL eficiente. El primer componente, PaCo-Reward, es un evaluador de consistencia por pares entrenado en un conjunto de datos a gran escala construido mediante emparejamiento automático de subfiguras. Evalúa la consistencia mediante un mecanismo de puntuación generativo y autorregresivo mejorado con instrucciones específicas por tarea y razonamientos CoT. El segundo componente, PaCo-GRPO, aprovecha una novedosa estrategia de optimización desacoplada por resolución para reducir sustancialmente el costo de RL, junto con un mecanismo de agregación de múltiples recompensas log-domadas que garantiza una optimización equilibrada y estable. Experimentos exhaustivos en dos subtareas representativas demuestran que PaCo-Reward mejora significativamente la alineación con las percepciones humanas de consistencia visual, y PaCo-GRPO alcanza un rendimiento de consistencia state-of-the-art con mayor eficiencia y estabilidad en el entrenamiento. En conjunto, estos resultados destacan el potencial de PaCo-RL como una solución práctica y escalable para la generación consistente de imágenes. La página del proyecto está disponible en https://x-gengroup.github.io/HomePage_PaCo-RL/.
English
Consistent image generation requires faithfully preserving identities, styles, and logical coherence across multiple images, which is essential for applications such as storytelling and character design. Supervised training approaches struggle with this task due to the lack of large-scale datasets capturing visual consistency and the complexity of modeling human perceptual preferences. In this paper, we argue that reinforcement learning (RL) offers a promising alternative by enabling models to learn complex and subjective visual criteria in a data-free manner. To achieve this, we introduce PaCo-RL, a comprehensive framework that combines a specialized consistency reward model with an efficient RL algorithm. The first component, PaCo-Reward, is a pairwise consistency evaluator trained on a large-scale dataset constructed via automated sub-figure pairing. It evaluates consistency through a generative, autoregressive scoring mechanism enhanced by task-aware instructions and CoT reasons. The second component, PaCo-GRPO, leverages a novel resolution-decoupled optimization strategy to substantially reduce RL cost, alongside a log-tamed multi-reward aggregation mechanism that ensures balanced and stable reward optimization. Extensive experiments across the two representative subtasks show that PaCo-Reward significantly improves alignment with human perceptions of visual consistency, and PaCo-GRPO achieves state-of-the-art consistency performance with improved training efficiency and stability. Together, these results highlight the promise of PaCo-RL as a practical and scalable solution for consistent image generation. The project page is available at https://x-gengroup.github.io/HomePage_PaCo-RL/.