ChatPaper.aiChatPaper

DenseGRPO: 희소 보상에서 밀집 보상으로의 흐름 매칭 모델 정렬

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

January 28, 2026
저자: Haoyou Deng, Keyu Yan, Chaojie Mao, Xiang Wang, Yu Liu, Changxin Gao, Nong Sang
cs.AI

초록

최근 흐름 정합 모델을 기반으로 한 GRPO 기반 접근법들은 텍스트-이미지 생성 분야에서 인간 선호도 정합 측면에서 뚜렷한 개선을 보여주었습니다. 그러나 이러한 방법들은 여전히 희소 보상 문제를 겪고 있습니다. 즉, 전체 노이즈 제거 궤적에 대한 최종 보상이 모든 중간 단계에 동일하게 적용되며, 이로 인해 글로벌 피드백 신호와 개별 노이즈 제거 단계의 정확한 세부 기여도 간 불일치가 발생합니다. 이러한 문제를 해결하기 위해, 본 연구에서는 각 노이즈 제거 단계의 세부 기여도를 평가하는 조밀 보상을 통해 인간 선호도를 정합하는 새로운 프레임워크인 DenseGRPO를 소개합니다. 구체적으로, 우리의 접근법은 두 가지 핵심 구성 요소를 포함합니다: (1) ODE 기반 방식을 통해 중간 생성 이미지에 보상 모델을 적용하여 각 노이즈 제거 단계의 단계별 보상 이득을 조밀 보상으로 예측하는 방법을 제안합니다. 이 방식은 피드백 신호와 개별 단계의 기여도 간 정합을 보장하여 효과적인 학습을 가능하게 합니다; (2) 추정된 조밀 보상을 바탕으로, 기존 GRPO 기반 방법에서 균일 탐색 설정과 시변 잡음 강도 간 존재하는 불일치 문제를 규명하여 부적절한 탐색 공간을 초래함을 보입니다. 따라서 우리는 SDE 샘플러에서 시간 단계별 확률적 노이즈 주입을 적응적으로 조정하여 탐색 공간을 보정하는 보상 인식 기법을 제안하며, 이를 통해 모든 시간 단계에서 적절한 탐색 공간을 보장합니다. 다양한 표준 벤치마크에서 진행한 폭넓은 실험을 통해 제안된 DenseGRPO의 효과성을 입증하고, 흐름 정합 모델 정합에 있어 유효한 조밀 보상의 중요성을 부각합니다.
English
Recent GRPO-based approaches built on flow matching models have shown remarkable improvements in human preference alignment for text-to-image generation. Nevertheless, they still suffer from the sparse reward problem: the terminal reward of the entire denoising trajectory is applied to all intermediate steps, resulting in a mismatch between the global feedback signals and the exact fine-grained contributions at intermediate denoising steps. To address this issue, we introduce DenseGRPO, a novel framework that aligns human preference with dense rewards, which evaluates the fine-grained contribution of each denoising step. Specifically, our approach includes two key components: (1) we propose to predict the step-wise reward gain as dense reward of each denoising step, which applies a reward model on the intermediate clean images via an ODE-based approach. This manner ensures an alignment between feedback signals and the contributions of individual steps, facilitating effective training; and (2) based on the estimated dense rewards, a mismatch drawback between the uniform exploration setting and the time-varying noise intensity in existing GRPO-based methods is revealed, leading to an inappropriate exploration space. Thus, we propose a reward-aware scheme to calibrate the exploration space by adaptively adjusting a timestep-specific stochasticity injection in the SDE sampler, ensuring a suitable exploration space at all timesteps. Extensive experiments on multiple standard benchmarks demonstrate the effectiveness of the proposed DenseGRPO and highlight the critical role of the valid dense rewards in flow matching model alignment.
PDF142February 3, 2026