PaCo-RL: Avançando o Aprendizado por Reforço para Geração Consistente de Imagens com Modelagem de Recompensa Pareada

Resumo

A geração consistente de imagens exige a preservação fiel de identidades, estilos e coerência lógica em múltiplas imagens, o que é essencial para aplicações como narrativa visual e design de personagens. As abordagens de treinamento supervisionado enfrentam dificuldades nesta tarefa devido à escassez de conjuntos de dados em larga escala que capturem consistência visual e à complexidade de modelar preferências perceptivas humanas. Neste artigo, argumentamos que o aprendizado por reforço (RL) oferece uma alternativa promissora ao permitir que os modelos aprendam critérios visuais complexos e subjetivos de forma livre de dados. Para alcançar este objetivo, introduzimos o PaCo-RL, um framework abrangente que combina um modelo de recompensa de consistência especializado com um algoritmo de RL eficiente. O primeiro componente, PaCo-Reward, é um avaliador de consistência pareada treinado em um conjunto de dados em larga escala construído através do emparelhamento automatizado de subfiguras. Ele avalia a consistência por meio de um mecanismo de pontuação generativo e autorregressivo aprimorado por instruções conscientes da tarefa e razões CoT. O segundo componente, PaCo-GRPO, aproveita uma estratégia inovadora de otimização dissociada de resolução para reduzir substancialmente o custo do RL, juntamente com um mecanismo de agregação de múltiplas recompensas com atenuação logarítmica que garante uma otimização de recompensa equilibrada e estável. Experimentos extensos nas duas subtarefas representativas mostram que o PaCo-Reward melhora significativamente o alinhamento com as percepções humanas de consistência visual, e o PaCo-GRPO alcança um desempenho de consistência state-of-the-art com eficiência e estabilidade de treinamento aprimoradas. Juntos, estes resultados destacam o potencial do PaCo-RL como uma solução prática e escalável para geração consistente de imagens. A página do projeto está disponível em https://x-gengroup.github.io/HomePage_PaCo-RL/.

English

Consistent image generation requires faithfully preserving identities, styles, and logical coherence across multiple images, which is essential for applications such as storytelling and character design. Supervised training approaches struggle with this task due to the lack of large-scale datasets capturing visual consistency and the complexity of modeling human perceptual preferences. In this paper, we argue that reinforcement learning (RL) offers a promising alternative by enabling models to learn complex and subjective visual criteria in a data-free manner. To achieve this, we introduce PaCo-RL, a comprehensive framework that combines a specialized consistency reward model with an efficient RL algorithm. The first component, PaCo-Reward, is a pairwise consistency evaluator trained on a large-scale dataset constructed via automated sub-figure pairing. It evaluates consistency through a generative, autoregressive scoring mechanism enhanced by task-aware instructions and CoT reasons. The second component, PaCo-GRPO, leverages a novel resolution-decoupled optimization strategy to substantially reduce RL cost, alongside a log-tamed multi-reward aggregation mechanism that ensures balanced and stable reward optimization. Extensive experiments across the two representative subtasks show that PaCo-Reward significantly improves alignment with human perceptions of visual consistency, and PaCo-GRPO achieves state-of-the-art consistency performance with improved training efficiency and stability. Together, these results highlight the promise of PaCo-RL as a practical and scalable solution for consistent image generation. The project page is available at https://x-gengroup.github.io/HomePage_PaCo-RL/.

PaCo-RL: Avançando o Aprendizado por Reforço para Geração Consistente de Imagens com Modelagem de Recompensa Pareada

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

Resumo

Support