PaCo-RL:ペアワイズ報酬モデリングによる一貫性のある画像生成のための強化学習の進展
PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling
December 2, 2025
著者: Bowen Ping, Chengyou Jia, Minnan Luo, Changliang Xia, Xin Shen, Zhuohang Dang, Hangwei Qian
cs.AI
要旨
一貫性のある画像生成には、複数の画像にわたって識別性、スタイル、論理的一貫性を忠実に維持することが求められ、ストーリーテリングやキャラクターデザインなどの応用において不可欠です。教師あり学習アプローチは、視覚的一貫性を捉えた大規模データセットの不足や、人間の知覚的選好をモデル化する複雑さから、この課題に苦戦しています。本論文では、強化学習(RL)がデータを必要とせずに複雑で主観的な視覚的基準を学習することを可能にするため、有望な代替手段となると論じます。これを実現するために、専門的な一貫性報酬モデルと効率的なRLアルゴリズムを組み合わせた包括的フレームワークであるPaCo-RLを提案します。第一の構成要素であるPaCo-Rewardは、自動化されたサブ図ペアリングによって構築された大規模データセットで学習されたペアワイズ一貫性評価器です。これは、タスク認識型命令とCoT推論によって強化された生成的・自己回帰的スコアリング機構を通じて一貫性を評価します。第二の構成要素であるPaCo-GRPOは、RLコストを大幅に削減する新しい解像度分離最適化戦略と、バランスの取れた安定した報酬最適化を保証する対数抑制型マルチ報酬集約メカニズムを活用します。2つの代表的なサブタスクにおける大規模な実験により、PaCo-Rewardが視覚的一貫性に関する人間の知覚との整合性を大幅に改善すること、またPaCo-GRPOが学習効率と安定性を向上させつつ state-of-the-art の一貫性性能を達成することが示されました。これらの結果は、PaCo-RLが実用的かつスケーラブルな一貫的画像生成ソリューションとしての可能性を強調しています。プロジェクトページは https://x-gengroup.github.io/HomePage_PaCo-RL/ で公開されています。
English
Consistent image generation requires faithfully preserving identities, styles, and logical coherence across multiple images, which is essential for applications such as storytelling and character design. Supervised training approaches struggle with this task due to the lack of large-scale datasets capturing visual consistency and the complexity of modeling human perceptual preferences. In this paper, we argue that reinforcement learning (RL) offers a promising alternative by enabling models to learn complex and subjective visual criteria in a data-free manner. To achieve this, we introduce PaCo-RL, a comprehensive framework that combines a specialized consistency reward model with an efficient RL algorithm. The first component, PaCo-Reward, is a pairwise consistency evaluator trained on a large-scale dataset constructed via automated sub-figure pairing. It evaluates consistency through a generative, autoregressive scoring mechanism enhanced by task-aware instructions and CoT reasons. The second component, PaCo-GRPO, leverages a novel resolution-decoupled optimization strategy to substantially reduce RL cost, alongside a log-tamed multi-reward aggregation mechanism that ensures balanced and stable reward optimization. Extensive experiments across the two representative subtasks show that PaCo-Reward significantly improves alignment with human perceptions of visual consistency, and PaCo-GRPO achieves state-of-the-art consistency performance with improved training efficiency and stability. Together, these results highlight the promise of PaCo-RL as a practical and scalable solution for consistent image generation. The project page is available at https://x-gengroup.github.io/HomePage_PaCo-RL/.