ChatPaper.aiChatPaper

PaCo-RL: Vooruitgang in Reinforcement Learning voor Consistente Beeldgeneratie met Paarsgewijze Beloningsmodellering

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

December 2, 2025
Auteurs: Bowen Ping, Chengyou Jia, Minnan Luo, Changliang Xia, Xin Shen, Zhuohang Dang, Hangwei Qian
cs.AI

Samenvatting

Consistente beeldgeneratie vereist het getrouw behouden van identiteiten, stijlen en logische samenhang over meerdere afbeeldingen heen, wat essentieel is voor toepassingen zoals storytelling en karakterontwerp. Gesuperviseerde trainingsmethoden worstelen met deze taak vanwege het gebrek aan grootschalige datasets die visuele consistentie vastleggen en de complexiteit van het modelleren van menselijke perceptuele voorkeuren. In dit artikel beargumenteren we dat reinforcement learning (RL) een veelbelovend alternatief biedt door modellen in staat te stellen complexe en subjectieve visuele criteria op een data-vrije manier aan te leren. Om dit te bereiken, introduceren we PaCo-RL, een alomvattend raamwerk dat een gespecialiseerd consistentie-beloningsmodel combineert met een efficiënt RL-algoritme. Het eerste onderdeel, PaCo-Reward, is een paarsgewijze consistentie-evaluator getraind op een grootschalige dataset die is opgebouwd via geautomatiseerde subfiguurkoppeling. Het evalueert consistentie door een generatief, autoregressief scoringsmechanisme verbeterd door taakbewuste instructies en CoT-redeneringen. Het tweede onderdeel, PaCo-GRPO, benut een nieuwe resolutie-ontkoppelde optimalisatiestrategie om de RL-kosten aanzienlijk te verlagen, naast een log-getemd multi-beloningsaggregatiemechanisme dat gebalanceerde en stabiele beloningsoptimalisatie waarborgt. Uitgebreide experimenten over twee representatieve sub-taken tonen aan dat PaCo-Reward de afstemming met menselijke percepties van visuele consistentie significant verbetert, en dat PaCo-GRPO state-of-the-art consistentieprestaties bereikt met verbeterde trainings-efficiëntie en stabiliteit. Gezamenlijk benadrukken deze resultaten de belofte van PaCo-RL als een praktische en schaalbare oplossing voor consistente beeldgeneratie. De projectpagina is beschikbaar op https://x-gengroup.github.io/HomePage_PaCo-RL/.
English
Consistent image generation requires faithfully preserving identities, styles, and logical coherence across multiple images, which is essential for applications such as storytelling and character design. Supervised training approaches struggle with this task due to the lack of large-scale datasets capturing visual consistency and the complexity of modeling human perceptual preferences. In this paper, we argue that reinforcement learning (RL) offers a promising alternative by enabling models to learn complex and subjective visual criteria in a data-free manner. To achieve this, we introduce PaCo-RL, a comprehensive framework that combines a specialized consistency reward model with an efficient RL algorithm. The first component, PaCo-Reward, is a pairwise consistency evaluator trained on a large-scale dataset constructed via automated sub-figure pairing. It evaluates consistency through a generative, autoregressive scoring mechanism enhanced by task-aware instructions and CoT reasons. The second component, PaCo-GRPO, leverages a novel resolution-decoupled optimization strategy to substantially reduce RL cost, alongside a log-tamed multi-reward aggregation mechanism that ensures balanced and stable reward optimization. Extensive experiments across the two representative subtasks show that PaCo-Reward significantly improves alignment with human perceptions of visual consistency, and PaCo-GRPO achieves state-of-the-art consistency performance with improved training efficiency and stability. Together, these results highlight the promise of PaCo-RL as a practical and scalable solution for consistent image generation. The project page is available at https://x-gengroup.github.io/HomePage_PaCo-RL/.
PDF232December 9, 2025