Stap voor Stap Optimaliseren, Per Blok: Blokniveau GRPO voor Tekst-naar-Beeld Generatie

Samenvatting

Group Relative Policy Optimization (GRPO) heeft een sterk potentieel getoond voor flow-matching-gebaseerde tekst-naar-beeld (T2I) generatie, maar kampt met twee belangrijke beperkingen: onnauwkeurige advantage-attributie en het negeren van de temporele dynamiek van de generatie. In dit werk beargumenteren wij dat een verschuiving van het optimalisatieparadigma van stapniveau naar chunkniveau deze problemen effectief kan verlichten. Voortbordurend op dit idee stellen wij Chunk-GRPO voor, de eerste op chunkniveau gebaseerde GRPO-aanpak voor T2I-generatie. De kerninzicht is om opeenvolgende stappen te groeperen in samenhangende 'chunks' die de intrinsieke temporele dynamiek van flow matching vastleggen, en het beleid op chunkniveau te optimaliseren. Daarnaast introduceren wij een optionele gewogen steekproefstrategie om de prestaties verder te verbeteren. Uitgebreide experimenten tonen aan dat Chunk-GRPO superieure resultaten behaalt op zowel het gebied van preference-alignment als beeldkwaliteit, wat de belofte van chunkniveau-optimalisatie voor GRPO-gebaseerde methoden benadrukt.

English

Group Relative Policy Optimization (GRPO) has shown strong potential for flow-matching-based text-to-image (T2I) generation, but it faces two key limitations: inaccurate advantage attribution, and the neglect of temporal dynamics of generation. In this work, we argue that shifting the optimization paradigm from the step level to the chunk level can effectively alleviate these issues. Building on this idea, we propose Chunk-GRPO, the first chunk-level GRPO-based approach for T2I generation. The insight is to group consecutive steps into coherent 'chunk's that capture the intrinsic temporal dynamics of flow matching, and to optimize policies at the chunk level. In addition, we introduce an optional weighted sampling strategy to further enhance performance. Extensive experiments show that ChunkGRPO achieves superior results in both preference alignment and image quality, highlighting the promise of chunk-level optimization for GRPO-based methods.

Stap voor Stap Optimaliseren, Per Blok: Blokniveau GRPO voor Tekst-naar-Beeld Generatie

Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation

Samenvatting

Support