E-GRPO: Passos de Alta Entropia Conduzem o Aprendizado por Reforço Eficaz para Modelos de Fluxo

Resumo

Recentemente, os avanços em aprendizagem por reforço têm aprimorado os modelos de correspondência de fluxo (flow matching) no alinhamento de preferências humanas. Embora a amostragem estocástica permita a exploração de direções de remoção de ruído, os métodos existentes que otimizam múltiplas etapas de desruído sofrem com sinais de recompensa esparsos e ambíguos. Observamos que as etapas de alta entropia possibilitam uma exploração mais eficiente e eficaz, enquanto as etapas de baixa entropia resultam em trajetórias indistinguíveis. Para tanto, propomos o E-GRPO, uma Otimização de Política Relativa de Grupo com Consciência Entrópica, para aumentar a entropia das etapas de amostragem de EDEs. Uma vez que a integração de equações diferenciais estocásticas sofre com sinais de recompensa ambíguos devido à estocasticidade de múltiplas etapas, nós consolidamos especificamente etapas consecutivas de baixa entropia para formular uma única etapa de alta entropia para amostragem de EDE, aplicando amostragem de EDOs nas demais etapas. Com base nisso, introduzimos a vantagem normalizada de grupo multi-etapa, que calcula vantagens relativas ao grupo dentro de amostras que compartilham a mesma etapa consolidada de desruído por EDE. Resultados experimentais em diferentes configurações de recompensa demonstraram a eficácia de nossos métodos.

English

Recent reinforcement learning has enhanced the flow matching models on human preference alignment. While stochastic sampling enables the exploration of denoising directions, existing methods which optimize over multiple denoising steps suffer from sparse and ambiguous reward signals. We observe that the high entropy steps enable more efficient and effective exploration while the low entropy steps result in undistinguished roll-outs. To this end, we propose E-GRPO, an entropy aware Group Relative Policy Optimization to increase the entropy of SDE sampling steps. Since the integration of stochastic differential equations suffer from ambiguous reward signals due to stochasticity from multiple steps, we specifically merge consecutive low entropy steps to formulate one high entropy step for SDE sampling, while applying ODE sampling on other steps. Building upon this, we introduce multi-step group normalized advantage, which computes group-relative advantages within samples sharing the same consolidated SDE denoising step. Experimental results on different reward settings have demonstrated the effectiveness of our methods.

E-GRPO: Passos de Alta Entropia Conduzem o Aprendizado por Reforço Eficaz para Modelos de Fluxo

E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

Resumo

Support