PaCo-RL: Fortschritte beim bestärkenden Lernen für konsistente Bildgenerierung durch paarweises Belohnungsmodellieren
PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling
December 2, 2025
papers.authors: Bowen Ping, Chengyou Jia, Minnan Luo, Changliang Xia, Xin Shen, Zhuohang Dang, Hangwei Qian
cs.AI
papers.abstract
Konsistente Bildgenerierung erfordert die zuverlässige Bewahrung von Identitäten, Stilen und logischer Kohärenz über mehrere Bilder hinweg, was für Anwendungen wie Geschichtenerzählen und Charakterdesign unerlässlich ist. Überwachte Trainingsansätze haben mit dieser Aufgabe Schwierigkeiten, da es an groß angelegten Datensätzen mangelt, die visuelle Konsistenz erfassen, und wegen der Komplexität der Modellierung menschlicher Wahrnehmungspräferenzen. In diesem Beitrag argumentieren wir, dass Reinforcement Learning (RL) eine vielversprechende Alternative bietet, indem es Modellen ermöglicht, komplexe und subjektive visuelle Kriterien auf datenfreie Weise zu erlernen. Um dies zu erreichen, führen wir PaCo-RL ein, einen umfassenden Rahmen, der ein spezielles Konsistenz-Belohnungsmodell mit einem effizienten RL-Algorithmus kombiniert. Die erste Komponente, PaCo-Reward, ist ein paarweiser Konsistenzbewerter, der auf einem groß angelegten Datensatz trainiert wurde, der durch automatische Unterbildpaarung erstellt wurde. Es bewertet die Konsistenz durch einen generativen, autoregressiven Bewertungsmechanismus, der durch aufgabenbewusste Anweisungen und CoT-Begründungen erweitert wird. Die zweite Komponente, PaCo-GRPO, nutzt eine neuartige auflösungsentkoppelte Optimierungsstrategie, um die RL-Kosten erheblich zu senken, zusammen mit einem logarithmisch gezähmten Multi-Reward-Aggregationsmechanismus, der eine ausgewogene und stabile Belohnungsoptimierung gewährleistet. Umfangreiche Experimente über zwei repräsentative Teilaufgaben hinweg zeigen, dass PaCo-Reward die Übereinstimmung mit der menschlichen Wahrnehmung visueller Konsistenz signifikant verbessert und PaCo-GRPO mit verbesserter Trainings Effizienz und Stabilität state-of-the-art Konsistenzleistung erreicht. Zusammen unterstreichen diese Ergebnisse das Potenzial von PaCo-RL als praktische und skalierbare Lösung für konsistente Bildgenerierung. Die Projektseite ist verfügbar unter https://x-gengroup.github.io/HomePage_PaCo-RL/.
English
Consistent image generation requires faithfully preserving identities, styles, and logical coherence across multiple images, which is essential for applications such as storytelling and character design. Supervised training approaches struggle with this task due to the lack of large-scale datasets capturing visual consistency and the complexity of modeling human perceptual preferences. In this paper, we argue that reinforcement learning (RL) offers a promising alternative by enabling models to learn complex and subjective visual criteria in a data-free manner. To achieve this, we introduce PaCo-RL, a comprehensive framework that combines a specialized consistency reward model with an efficient RL algorithm. The first component, PaCo-Reward, is a pairwise consistency evaluator trained on a large-scale dataset constructed via automated sub-figure pairing. It evaluates consistency through a generative, autoregressive scoring mechanism enhanced by task-aware instructions and CoT reasons. The second component, PaCo-GRPO, leverages a novel resolution-decoupled optimization strategy to substantially reduce RL cost, alongside a log-tamed multi-reward aggregation mechanism that ensures balanced and stable reward optimization. Extensive experiments across the two representative subtasks show that PaCo-Reward significantly improves alignment with human perceptions of visual consistency, and PaCo-GRPO achieves state-of-the-art consistency performance with improved training efficiency and stability. Together, these results highlight the promise of PaCo-RL as a practical and scalable solution for consistent image generation. The project page is available at https://x-gengroup.github.io/HomePage_PaCo-RL/.