DenseGRPO: Von spärlicher zu dichter Belohnung für die Ausrichtung von Flow-Matching-Modellen
DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment
January 28, 2026
papers.authors: Haoyou Deng, Keyu Yan, Chaojie Mao, Xiang Wang, Yu Liu, Changxin Gao, Nong Sang
cs.AI
papers.abstract
Kürzlich entwickelte GRPO-basierte Ansätze, die auf Flow-Matching-Modellen aufbauen, haben bemerkenswerte Verbesserungen bei der Ausrichtung an menschlichen Präferenzen für die Text-zu-Bild-Generierung gezeigt. Dennoch leiden sie weiterhin unter dem Problem der spärlichen Belohnung: Die Endbelohnung der gesamten Denoising-Trajektorie wird auf alle Zwischenschritte angewendet, was zu einer Diskrepanz zwischen den globalen Feedback-Signalen und den genauen feinkörnigen Beiträgen in den intermediären Denoising-Schritten führt. Um dieses Problem zu adressieren, stellen wir DenseGRPO vor, einen neuartigen Rahmen, der menschliche Präferenzen mit dichten Belohnungen in Einklang bringt, indem er den feinkörnigen Beitrag jedes Denoising-Schritts bewertet. Konkret umfasst unser Ansatz zwei Schlüsselkomponenten: (1) Wir schlagen vor, den schrittweisen Belohnungszuwachs als dichte Belohnung für jeden Denoising-Schritt vorherzusagen, indem wir ein Belohnungsmodell auf die intermediären sauberen Bilder mittels eines ODE-basierten Ansatzes anwenden. Dieser Ansatz gewährleistet eine Übereinstimmung zwischen den Feedback-Signalen und den Beiträgen einzelner Schritte und erleichtert so ein effektives Training; und (2) basierend auf den geschätzten dichten Belohnungen wird ein Nachteil der Diskrepanz zwischen der einheitlichen Explorationseinstellung und der zeitlich variierenden Rauschintensität in bestehenden GRPO-basierten Methoden aufgedeckt, was zu einem unangemessenen Explorationsraum führt. Daher schlagen wir ein belohnungsbasiertes Schema vor, um den Explorationsraum zu kalibrieren, indem wir eine zeitstempelspezifische Stochastizitäts-Injektion im SDE-Sampler adaptiv anpassen und so einen geeigneten Explorationsraum zu allen Zeitpunkten sicherstellen. Umfangreiche Experimente auf mehreren Standard-Benchmarks demonstrieren die Wirksamkeit des vorgeschlagenen DenseGRPO und unterstreichen die kritische Rolle valider dichter Belohnungen bei der Ausrichtung von Flow-Matching-Modellen.
English
Recent GRPO-based approaches built on flow matching models have shown remarkable improvements in human preference alignment for text-to-image generation. Nevertheless, they still suffer from the sparse reward problem: the terminal reward of the entire denoising trajectory is applied to all intermediate steps, resulting in a mismatch between the global feedback signals and the exact fine-grained contributions at intermediate denoising steps. To address this issue, we introduce DenseGRPO, a novel framework that aligns human preference with dense rewards, which evaluates the fine-grained contribution of each denoising step. Specifically, our approach includes two key components: (1) we propose to predict the step-wise reward gain as dense reward of each denoising step, which applies a reward model on the intermediate clean images via an ODE-based approach. This manner ensures an alignment between feedback signals and the contributions of individual steps, facilitating effective training; and (2) based on the estimated dense rewards, a mismatch drawback between the uniform exploration setting and the time-varying noise intensity in existing GRPO-based methods is revealed, leading to an inappropriate exploration space. Thus, we propose a reward-aware scheme to calibrate the exploration space by adaptively adjusting a timestep-specific stochasticity injection in the SDE sampler, ensuring a suitable exploration space at all timesteps. Extensive experiments on multiple standard benchmarks demonstrate the effectiveness of the proposed DenseGRPO and highlight the critical role of the valid dense rewards in flow matching model alignment.