Otimização de Preferência Offline para Fluxo Retificado com Pares Rastreados por Ruído

Resumo

Os conjuntos de dados de preferência existentes para modelos texto-imagem normalmente armazenam apenas as imagens vencedoras/perdedoras finais. Essa representação é insuficiente para modelos de fluxo retificado (RF), cuja geração é naturalmente indexada por uma amostra específica de ruído anterior e segue uma trajetória de denoising quase reta. Em contraste, o alinhamento no estilo DPO para modelos de difusão comumente estima trajetórias usando um processo de adição de ruído direto independente, que pode ser mal ajustado às dinâmicas reversas verdadeiras e introduz variância desnecessária. Propomos a Otimização de Preferência Ciente do Ruído Anterior (PNAPO), uma estrutura de alinhamento off-policy especializada para fluxo retificado. A PNAPO aumenta os dados de preferência ao reter os ruídos anteriores emparelhados usados para gerar cada imagem vencedora/perdedora, transformando o trio padrão (prompt, vencedor, perdedor) em uma sextupla. Aproveitando a propriedade de linha reta do RF, estimamos estados intermediários via interpolação ruído-imagem, o que restringe o espaço de estimativa de trajetória e produz um objetivo substituto mais restrito para otimização de preferência. Além disso, introduzimos uma estratégia de regularização dinâmica que adapta a regularização DPO com base (i) na diferença de recompensa entre vencedor e perdedor e (ii) no progresso do treinamento, melhorando a estabilidade e a eficiência amostral. Experimentos em backbones RF T2I de última geração mostram que a PNAPO melhora consistentemente as métricas de preferência enquanto reduz substancialmente o custo computacional de treinamento.

English

Existing preference datasets for text-to-image models typically store only the final winner/loser images. This representation is insufficient for rectified flow (RF) models, whose generation is naturally indexed by a specific prior noise sample and follows a nearly straight denoising trajectory. In contrast, prior DPO-style alignment for diffusion models commonly estimates trajectories using an independent forward noising process, which can be mismatched to the true reverse dynamics and introduces unnecessary variance. We propose Prior Noise-Aware Preference Optimization (PNAPO), an off-policy alignment framework specialized for rectified flow. PNAPO augments preference data by retaining the paired prior noises used to generate each winner/loser image, turning the standard (prompt, winner, loser) triplet into a sextuple. Leveraging the straight-line property of RF, we estimate intermediate states via noise-image interpolation, which constrains the trajectory estimation space and yields a tighter surrogate objective for preference optimization. In addition, we introduce a dynamic regularization strategy that adapts the DPO regularization based on (i) the reward gap between winner and loser and (ii) training progress, improving stability and sample efficiency. Experiments on state-of-the-art RF T2I backbones show that PNAPO consistently improves preference metrics while substantially reducing training compute.