ChatPaper.aiChatPaper

PaCo-RL : Faire progresser l'apprentissage par renforcement pour la génération d'images cohérentes grâce à la modélisation de récompenses par paires

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

December 2, 2025
papers.authors: Bowen Ping, Chengyou Jia, Minnan Luo, Changliang Xia, Xin Shen, Zhuohang Dang, Hangwei Qian
cs.AI

papers.abstract

La génération d'images cohérentes nécessite de préserver fidèlement les identités, les styles et la cohérence logique sur plusieurs images, ce qui est essentiel pour des applications comme la narration et la conception de personnages. Les approches d'apprentissage supervisé peinent à accomplir cette tâche en raison du manque de jeux de données à grande échelle capturant la cohérence visuelle et de la complexité de modéliser les préférences perceptuelles humaines. Dans cet article, nous soutenons que l'apprentissage par renforcement (RL) offre une alternative prometteuse en permettant aux modèles d'apprendre des critères visuels complexes et subjectifs sans nécessiter de données. Pour y parvenir, nous présentons PaCo-RL, un cadre complet qui combine un modèle de récompense de cohérence spécialisé avec un algorithme RL efficace. Le premier composant, PaCo-Reward, est un évaluateur de cohérence par paires entraîné sur un jeu de données à grande échelle construit via un appariement automatisé de sous-figures. Il évalue la cohérence grâce à un mécanisme de score génératif et autorégressif amélioré par des instructions adaptées à la tâche et des raisonnements en chaîne (CoT). Le second composant, PaCo-GRPO, exploite une nouvelle stratégie d'optimisation découplée par résolution pour réduire substantiellement le coût du RL, ainsi qu'un mécanisme d'agrégation multi-récompenses à atténuation logarithmique qui assure une optimisation équilibrée et stable des récompenses. Des expériences approfondies sur deux sous-tâches représentatives montrent que PaCo-Reward améliore significativement l'alignement avec les perceptions humaines de la cohérence visuelle, et que PaCo-GRPO atteint des performances de cohérence à l'état de l'art avec une efficacité et une stabilité d'entraînement améliorées. Ensemble, ces résultats soulignent le potentiel de PaCo-RL comme solution pratique et évolutive pour la génération d'images cohérentes. La page du projet est disponible à l'adresse https://x-gengroup.github.io/HomePage_PaCo-RL/.
English
Consistent image generation requires faithfully preserving identities, styles, and logical coherence across multiple images, which is essential for applications such as storytelling and character design. Supervised training approaches struggle with this task due to the lack of large-scale datasets capturing visual consistency and the complexity of modeling human perceptual preferences. In this paper, we argue that reinforcement learning (RL) offers a promising alternative by enabling models to learn complex and subjective visual criteria in a data-free manner. To achieve this, we introduce PaCo-RL, a comprehensive framework that combines a specialized consistency reward model with an efficient RL algorithm. The first component, PaCo-Reward, is a pairwise consistency evaluator trained on a large-scale dataset constructed via automated sub-figure pairing. It evaluates consistency through a generative, autoregressive scoring mechanism enhanced by task-aware instructions and CoT reasons. The second component, PaCo-GRPO, leverages a novel resolution-decoupled optimization strategy to substantially reduce RL cost, alongside a log-tamed multi-reward aggregation mechanism that ensures balanced and stable reward optimization. Extensive experiments across the two representative subtasks show that PaCo-Reward significantly improves alignment with human perceptions of visual consistency, and PaCo-GRPO achieves state-of-the-art consistency performance with improved training efficiency and stability. Together, these results highlight the promise of PaCo-RL as a practical and scalable solution for consistent image generation. The project page is available at https://x-gengroup.github.io/HomePage_PaCo-RL/.
PDF232December 9, 2025