ChatPaper.aiChatPaper

PaCo-RL: Progressi nell'Apprendimento per Rinforzo per la Generazione Consistente di Immagini con Modellazione di Ricompensa a Coppie

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

December 2, 2025
Autori: Bowen Ping, Chengyou Jia, Minnan Luo, Changliang Xia, Xin Shen, Zhuohang Dang, Hangwei Qian
cs.AI

Abstract

La generazione di immagini coerenti richiede la preservazione fedele di identità, stili e coerenza logica attraverso più immagini, un aspetto essenziale per applicazioni come lo storytelling e il character design. Gli approcci di training supervisionato incontrano difficoltà in questo compito a causa della mancanza di dataset su larga scala che catturino la coerenza visiva e della complessità nel modellare le preferenze percettive umane. In questo articolo, sosteniamo che il reinforcement learning (RL) rappresenta una valida alternativa, consentendo ai modelli di apprendere criteri visivi complessi e soggettivi in modo indipendente dai dati. Per raggiungere questo obiettivo, introduciamo PaCo-RL, un framework completo che combina un modello di ricompensa specializzato per la coerenza con un algoritmo RL efficiente. Il primo componente, PaCo-Reward, è un valutatore di coerenza a coppie addestrato su un dataset su larga scala costruito mediante l’abbinamento automatizzato di sotto-figure. Esso valuta la coerenza attraverso un meccanismo di punteggio generativo e autoregressivo potenziato da istruzioni task-aware e ragionamenti CoT. Il secondo componente, PaCo-GRPO, sfrutta una strategia di ottimizzazione disaccoppiata dalla risoluzione per ridurre sostanzialmente il costo del RL, insieme a un meccanismo di aggregazione multi-ricompensa con smussamento logaritmico che garantisce un'ottimizzazione bilanciata e stabile delle ricompense. Esperimenti estesi su due sottotask rappresentativi mostrano che PaCo-Reward migliora significativamente l'allineamento con le percezioni umane della coerenza visiva, e PaCo-GRPO raggiunge prestazioni state-of-the-art in coerenza con efficienza e stabilità di training migliorate. Nel complesso, questi risultati evidenziano il potenziale di PaCo-RL come soluzione pratica e scalabile per la generazione di immagini coerenti. La pagina del progetto è disponibile all'indirizzo https://x-gengroup.github.io/HomePage_PaCo-RL/.
English
Consistent image generation requires faithfully preserving identities, styles, and logical coherence across multiple images, which is essential for applications such as storytelling and character design. Supervised training approaches struggle with this task due to the lack of large-scale datasets capturing visual consistency and the complexity of modeling human perceptual preferences. In this paper, we argue that reinforcement learning (RL) offers a promising alternative by enabling models to learn complex and subjective visual criteria in a data-free manner. To achieve this, we introduce PaCo-RL, a comprehensive framework that combines a specialized consistency reward model with an efficient RL algorithm. The first component, PaCo-Reward, is a pairwise consistency evaluator trained on a large-scale dataset constructed via automated sub-figure pairing. It evaluates consistency through a generative, autoregressive scoring mechanism enhanced by task-aware instructions and CoT reasons. The second component, PaCo-GRPO, leverages a novel resolution-decoupled optimization strategy to substantially reduce RL cost, alongside a log-tamed multi-reward aggregation mechanism that ensures balanced and stable reward optimization. Extensive experiments across the two representative subtasks show that PaCo-Reward significantly improves alignment with human perceptions of visual consistency, and PaCo-GRPO achieves state-of-the-art consistency performance with improved training efficiency and stability. Together, these results highlight the promise of PaCo-RL as a practical and scalable solution for consistent image generation. The project page is available at https://x-gengroup.github.io/HomePage_PaCo-RL/.
PDF232December 9, 2025