ChatPaper.aiChatPaper

PaCo-RL: Pairwise Reward Modeling을 통한 일관된 이미지 생성을 위한 강화 학습 발전

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

December 2, 2025
저자: Bowen Ping, Chengyou Jia, Minnan Luo, Changliang Xia, Xin Shen, Zhuohang Dang, Hangwei Qian
cs.AI

초록

일관된 이미지 생성은 여러 이미지 간에 정체성, 스타일, 논리적 일관성을 충실히 보존하는 것을 요구하며, 이는 스토리텔링 및 캐릭터 디자인과 같은 응용 분야에서 필수적입니다. 지도 학습 기반 접근법은 시각적 일관성을 포착하는 대규모 데이터셋의 부족과 인간의 인지적 선호도를 모델링하는 복잡성으로 인해 이 작업에 어려움을 겪습니다. 본 논문에서는 강화 학습(RL)이 데이터 없이도 복잡하고 주관적인 시각적 기준을 모델이 학습할 수 있도록 함으로써 유망한 대안을 제공한다고 주장합니다. 이를 위해 우리는 특화된 일관성 보상 모델과 효율적인 RL 알고리즘을 결합한 포괄적인 프레임워크인 PaCo-RL을 소개합니다. 첫 번째 구성 요소인 PaCo-Reward는 자동화된 부분 그림 페어링을 통해 구축된 대규모 데이터셋으로 훈련된 pairwise 일관성 평가기입니다. 이는 작업 인지 지시문과 CoT 추론으로 강화된 생성적 자동회귀 채점 메커니즘을 통해 일관성을 평가합니다. 두 번째 구성 요소인 PaCo-GRPO는 RL 비용을 상당히 절감하는 새로운 해상도 분리 최적화 전략과 균형 잡히고 안정적인 보상 최적화를 보장하는 log-tamed 다중 보상 집계 메커니즘을 활용합니다. 두 가지 대표적인 하위 작업에 대한 광범위한 실험을 통해 PaCo-Reward가 시각적 일관성에 대한 인간의 인지와의 정렬을 크게 개선하며, PaCo-GRPO는 향상된 훈련 효율성과 안정성으로 최첨단 일관성 성능을 달성함을 보여줍니다. 이러한 결과들은 PaCo-RL이 실용적이고 확장 가능한 일관된 이미지 생성 솔루션으로서의 가능성을 강조합니다. 프로젝트 페이지는 https://x-gengroup.github.io/HomePage_PaCo-RL/에서 확인할 수 있습니다.
English
Consistent image generation requires faithfully preserving identities, styles, and logical coherence across multiple images, which is essential for applications such as storytelling and character design. Supervised training approaches struggle with this task due to the lack of large-scale datasets capturing visual consistency and the complexity of modeling human perceptual preferences. In this paper, we argue that reinforcement learning (RL) offers a promising alternative by enabling models to learn complex and subjective visual criteria in a data-free manner. To achieve this, we introduce PaCo-RL, a comprehensive framework that combines a specialized consistency reward model with an efficient RL algorithm. The first component, PaCo-Reward, is a pairwise consistency evaluator trained on a large-scale dataset constructed via automated sub-figure pairing. It evaluates consistency through a generative, autoregressive scoring mechanism enhanced by task-aware instructions and CoT reasons. The second component, PaCo-GRPO, leverages a novel resolution-decoupled optimization strategy to substantially reduce RL cost, alongside a log-tamed multi-reward aggregation mechanism that ensures balanced and stable reward optimization. Extensive experiments across the two representative subtasks show that PaCo-Reward significantly improves alignment with human perceptions of visual consistency, and PaCo-GRPO achieves state-of-the-art consistency performance with improved training efficiency and stability. Together, these results highlight the promise of PaCo-RL as a practical and scalable solution for consistent image generation. The project page is available at https://x-gengroup.github.io/HomePage_PaCo-RL/.
PDF232December 9, 2025