Reforçando Geradores de Poucos Passos via Correspondência de Distribuição com Viés de Recompensa

Resumo

Avanços recentes na destilação de difusão em poucas etapas possibilitaram a geração eficiente de imagens, porém alinhar esses modelos às preferências humanas ainda é desafiador. Propomos a Destilação por Correspondência de Distribuição com Inclinação para Recompensa (RTDMD, na sigla em inglês), uma estrutura em dois estágios que unifica a destilação por correspondência de distribuição com aprendizado por reforço guiado por recompensa para geradores de fluxo em poucas etapas. Mostramos que minimizar a divergência KL para uma distribuição do professor inclinada para recompensa decompõe-se naturalmente em um termo de correspondência de distribuição e um termo de maximização de recompensa. No primeiro estágio, introduzimos a Destilação por Correspondência de Distribuição com Consistência Ambiental (AC-DMD, na sigla em inglês), que realiza correspondência de distribuição por subintervalo e aumenta o objetivo de escore falso com um regularizador de consistência para ajudar o modelo de escore falso a acompanhar a distribuição do gerador em mudança sob atualizações limitadas. No segundo estágio, otimizamos ambos os termos conjuntamente: para o termo de maximização de recompensa, derivamos um gradiente de política híbrido que combina um estimador estilo GRPO para as transições intermediárias estocásticas com a retropropagação direta da recompensa através da etapa final determinística, e introduzimos ainda o GRPO por subconjunto de etapas (SubGRPO) para reduzir a variância. Experimentos em SD3, SD3.5 e FLUX.2 demonstram que o RTDMD estabelece novos resultados de última geração em métricas de preferência, estética e composicionalidade com apenas 4 etapas de inferência, superando métodos anteriores de geração de texto para imagem em poucas etapas. O código e os modelos estão disponíveis em https://github.com/Harahan/RTDMD.

English

Recent advances in few-step diffusion distillation have enabled efficient image generation, yet aligning these models with human preferences remains challenging. We propose Reward-Tilted Distribution Matching Distillation (RTDMD), a two-stage framework that unifies distribution matching distillation with reward-guided reinforcement learning for few-step flow generators. We show that minimizing the KL divergence to a reward-tilted teacher distribution naturally decomposes into a distribution matching term and a reward maximization term. In the first stage, we introduce Ambient-Consistent Distribution Matching Distillation (AC-DMD), which performs subinterval-wise distribution matching and augments the fake score objective with a consistency regularizer to help the fake score model track the shifting generator distribution under limited updates. In the second stage, we jointly optimize both terms: for the reward maximization term, we derive a hybrid policy gradient that combines a GRPO-style estimator for the stochastic intermediate transitions with direct reward backpropagation through the deterministic final step, and further introduce step-subset GRPO (SubGRPO) to reduce variance. Experiments on SD3, SD3.5, and FLUX.2 demonstrate that RTDMD establishes new state-of-the-art results across preference, aesthetic, and compositional metrics with only 4 inference steps, outperforming previous few-step text-to-image generation methods. Code and models are available at https://github.com/Harahan/RTDMD.