ChatPaper.aiChatPaper

Amostra Passo a Passo, Otimiza Por Bloco: GRPO em Nível de Bloco Para Geração de Texto para Imagem

Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation

October 24, 2025
Autores: Yifu Luo, Penghui Du, Bo Li, Sinan Du, Tiantian Zhang, Yongzhe Chang, Kai Wu, Kun Gai, Xueqian Wang
cs.AI

Resumo

O Group Relative Policy Optimization (GRPO) tem demonstrado um forte potencial para a geração de imagens a partir de texto (T2I) baseada em correspondência de fluxo (*flow matching*), mas enfrenta duas limitações principais: a atribuição imprecisa de vantagem e a negligência das dinâmicas temporais da geração. Neste trabalho, argumentamos que a mudança do paradigma de otimização do nível do passo para o nível do *chunk* pode aliviar eficazmente esses problemas. Com base nesta ideia, propomos o Chunk-GRPO, a primeira abordagem baseada em GRPO a nível de *chunk* para geração T2I. A perceção é agrupar passos consecutivos em *chunks* coerentes que capturam a dinâmica temporal intrínseca da correspondência de fluxo e otimizar as políticas a nível do *chunk*. Adicionalmente, introduzimos uma estratégia opcional de amostragem ponderada para melhorar ainda mais o desempenho. Experimentos extensivos mostram que o ChunkGRPO alcança resultados superiores tanto no alinhamento de preferências como na qualidade da imagem, destacando a promessa da otimização a nível de *chunk* para métodos baseados em GRPO.
English
Group Relative Policy Optimization (GRPO) has shown strong potential for flow-matching-based text-to-image (T2I) generation, but it faces two key limitations: inaccurate advantage attribution, and the neglect of temporal dynamics of generation. In this work, we argue that shifting the optimization paradigm from the step level to the chunk level can effectively alleviate these issues. Building on this idea, we propose Chunk-GRPO, the first chunk-level GRPO-based approach for T2I generation. The insight is to group consecutive steps into coherent 'chunk's that capture the intrinsic temporal dynamics of flow matching, and to optimize policies at the chunk level. In addition, we introduce an optional weighted sampling strategy to further enhance performance. Extensive experiments show that ChunkGRPO achieves superior results in both preference alignment and image quality, highlighting the promise of chunk-level optimization for GRPO-based methods.
PDF303December 17, 2025