ChatPaper.aiChatPaper

샘플 단위 생성, 청크 단위 최적화: 텍스트-이미지 생성을 위한 청크 수준 GRPO

Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation

October 24, 2025
저자: Yifu Luo, Penghui Du, Bo Li, Sinan Du, Tiantian Zhang, Yongzhe Chang, Kai Wu, Kun Gai, Xueqian Wang
cs.AI

초록

Group Relative Policy Optimization(GRPO)는 흐름 일치 기반 텍스트-이미지(T2I) 생성에서 강력한 잠재력을 보여주지만, 두 가지 주요 한계에 직면해 있습니다: 부정확한 이점 귀속과 생성의 시간적 역동성 간과입니다. 본 연구에서는 최적화 패러다임을 단계 수준에서 청크 수준으로 전환함으로써 이러한 문제를 효과적으로 완화할 수 있다고 주장합니다. 이러한 아이디어를 바탕으로 T2I 생성을 위한 최초의 청크 수준 GRPO 기반 접근법인 Chunk-GRPO를 제안합니다. 핵심 통찰은 연속적인 단계들을 흐름 일치의 본질적 시간적 역동성을 포착하는 일관된 '청크'로 그룹화하고, 정책을 청크 수준에서 최적화하는 것입니다. 또한 성능을 더욱 향상시키기 위한 선택적 가중 샘플링 전략을 도입합니다. 광범위한 실험을 통해 Chunk-GRPO가 선호도 정렬과 이미지 품질 모두에서 우수한 결과를 달성하며, GRPO 기반 방법에 대한 청크 수준 최적화의 가능성을 입증합니다.
English
Group Relative Policy Optimization (GRPO) has shown strong potential for flow-matching-based text-to-image (T2I) generation, but it faces two key limitations: inaccurate advantage attribution, and the neglect of temporal dynamics of generation. In this work, we argue that shifting the optimization paradigm from the step level to the chunk level can effectively alleviate these issues. Building on this idea, we propose Chunk-GRPO, the first chunk-level GRPO-based approach for T2I generation. The insight is to group consecutive steps into coherent 'chunk's that capture the intrinsic temporal dynamics of flow matching, and to optimize policies at the chunk level. In addition, we introduce an optional weighted sampling strategy to further enhance performance. Extensive experiments show that ChunkGRPO achieves superior results in both preference alignment and image quality, highlighting the promise of chunk-level optimization for GRPO-based methods.
PDF303December 17, 2025