Stap voor Stap Optimaliseren, Per Blok: Blokniveau GRPO voor Tekst-naar-Beeld Generatie
Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation
October 24, 2025
Auteurs: Yifu Luo, Penghui Du, Bo Li, Sinan Du, Tiantian Zhang, Yongzhe Chang, Kai Wu, Kun Gai, Xueqian Wang
cs.AI
Samenvatting
Group Relative Policy Optimization (GRPO) heeft een sterk potentieel getoond voor flow-matching-gebaseerde tekst-naar-beeld (T2I) generatie, maar kampt met twee belangrijke beperkingen: onnauwkeurige advantage-attributie en het negeren van de temporele dynamiek van de generatie. In dit werk beargumenteren wij dat een verschuiving van het optimalisatieparadigma van stapniveau naar chunkniveau deze problemen effectief kan verlichten. Voortbordurend op dit idee stellen wij Chunk-GRPO voor, de eerste op chunkniveau gebaseerde GRPO-aanpak voor T2I-generatie. De kerninzicht is om opeenvolgende stappen te groeperen in samenhangende 'chunks' die de intrinsieke temporele dynamiek van flow matching vastleggen, en het beleid op chunkniveau te optimaliseren. Daarnaast introduceren wij een optionele gewogen steekproefstrategie om de prestaties verder te verbeteren. Uitgebreide experimenten tonen aan dat Chunk-GRPO superieure resultaten behaalt op zowel het gebied van preference-alignment als beeldkwaliteit, wat de belofte van chunkniveau-optimalisatie voor GRPO-gebaseerde methoden benadrukt.
English
Group Relative Policy Optimization (GRPO) has shown strong potential for
flow-matching-based text-to-image (T2I) generation, but it faces two key
limitations: inaccurate advantage attribution, and the neglect of temporal
dynamics of generation. In this work, we argue that shifting the optimization
paradigm from the step level to the chunk level can effectively alleviate these
issues. Building on this idea, we propose Chunk-GRPO, the first chunk-level
GRPO-based approach for T2I generation. The insight is to group consecutive
steps into coherent 'chunk's that capture the intrinsic temporal dynamics of
flow matching, and to optimize policies at the chunk level. In addition, we
introduce an optional weighted sampling strategy to further enhance
performance. Extensive experiments show that ChunkGRPO achieves superior
results in both preference alignment and image quality, highlighting the
promise of chunk-level optimization for GRPO-based methods.