Aproveitando o Aprendizado por Reforço Baseado em Verificação na Edição de Imagens

Resumo

Embora o Aprendizado por Reforço com Feedback Humano (RLHF) tenha se tornado um paradigma fundamental para a geração de imagens a partir de texto, sua aplicação na edição de imagens permanece amplamente inexplorada. Um gargalo principal é a falta de um modelo de recompensa geral e robusto para todas as tarefas de edição. Os modelos de recompensa de edição existentes geralmente atribuem pontuações gerais sem verificações detalhadas, ignorando diferentes requisitos das instruções e causando recompensas tendenciosas. Para resolver isso, argumentamos que a chave é passar de um simples pontuador para um verificador com raciocínio. Apresentamos o Edit-R1, uma estrutura que constrói um modelo de recompensa baseado em raciocínio (RRM) com um verificador de cadeia de pensamento (CoT) e, em seguida, o aproveita para a edição de imagens downstream. O Edit-RRM decompõe as instruções em princípios distintos, avalia a imagem editada em relação a cada princípio e agrega essas verificações em uma recompensa interpretável e de granularidade fina. Para construir tal RRM, primeiro aplicamos o ajuste fino supervisionado (SFT) como uma "partida a frio" para gerar trajetórias de recompensa CoT. Em seguida, introduzimos a Otimização de Preferência por Contraste de Grupo (GCPO), um algoritmo de aprendizado por reforço que aproveita dados de preferência humana pareados para reforçar nosso RRM pontual. Após a construção do RRM, usamos o GRPO para treinar modelos de edição com este modelo de recompensa não diferenciável, porém poderoso. Experimentos extensivos demonstram que nosso Edit-RRM supera VLMs poderosos, como o Seed-1.5-VL e o Seed-1.6-VL, como um modelo de recompensa específico para edição, e observamos uma clara tendência de escalabilidade, com o desempenho melhorando consistentemente de 3B para 7B de parâmetros. Além disso, o Edit-R1 proporciona ganhos para modelos de edição como o FLUX.1-kontext, destacando sua eficácia na melhoria da edição de imagens.

English

While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based reasoning reward model (RRM) and then leverages it for downstream image editing. The Edit-RRM breaks instructions into distinct principles, evaluates the edited image against each principle, and aggregates these checks into an interpretable, fine-grained reward. To build such an RRM, we first apply supervised fine-tuning (SFT) as a ``cold-start'' to generate CoT reward trajectories. Then, we introduce Group Contrastive Preference Optimization (GCPO), a reinforcement learning algorithm that leverages human pairwise preference data to reinforce our pointwise RRM. After building the RRM, we use GRPO to train editing models with this non-differentiable yet powerful reward model. Extensive experiments demonstrate that our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext, highlighting its effectiveness in enhancing image editing.

Aproveitando o Aprendizado por Reforço Baseado em Verificação na Edição de Imagens

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Resumo

Support