ChatPaper.aiChatPaper

Ottimizzazione delle Preferenze Consapevole del Passo: Allineamento delle Preferenze con le Prestazioni di Denoising a Ogni Passo

Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step

June 6, 2024
Autori: Zhanhao Liang, Yuhui Yuan, Shuyang Gu, Bohan Chen, Tiankai Hang, Ji Li, Liang Zheng
cs.AI

Abstract

Recentemente, l'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) ha esteso il suo successo dall'allineamento di grandi modelli linguistici (LLM) all'allineamento di modelli di diffusione testo-immagine con le preferenze umane. A differenza della maggior parte dei metodi DPO esistenti, che presuppongono che tutti i passi di diffusione condividano un ordine di preferenza coerente con le immagini generate finali, sosteniamo che questa ipotesi trascura le prestazioni specifiche di ogni passo nel processo di denoising e che le etichette di preferenza dovrebbero essere adattate al contributo di ciascun passo. Per affrontare questa limitazione, proponiamo l'ottimizzazione delle preferenze consapevole del passo (Step-aware Preference Optimization, SPO), un nuovo approccio post-addestramento che valuta e regola in modo indipendente le prestazioni di denoising a ogni passo, utilizzando un modello di preferenza consapevole del passo e un ricampionatore passo-passo per garantire una supervisione accurata e specifica per ogni passo. In particolare, a ogni passo di denoising, campioniamo un insieme di immagini, troviamo una coppia vincente-perdente adatta e, soprattutto, selezioniamo casualmente una singola immagine dall'insieme per inizializzare il passo successivo di denoising. Questo processo di ricampionamento passo-passo assicura che la prossima coppia di immagini vincente-perdente provenga dalla stessa immagine, rendendo il confronto vincente-perdente indipendente dal passo precedente. Per valutare le preferenze a ogni passo, addestriamo un modello di preferenza consapevole del passo separato, che può essere applicato sia a immagini rumorose che a immagini pulite. I nostri esperimenti con Stable Diffusion v1.5 e SDXL dimostrano che SPO supera significativamente l'ultima versione di Diffusion-DPO nell'allineamento delle immagini generate con prompt complessi e dettagliati e nel miglioramento dell'estetica, raggiungendo inoltre un'efficienza di addestramento più di 20 volte superiore. Codice e modello: https://rockeycoss.github.io/spo.github.io/
English
Recently, Direct Preference Optimization (DPO) has extended its success from aligning large language models (LLMs) to aligning text-to-image diffusion models with human preferences. Unlike most existing DPO methods that assume all diffusion steps share a consistent preference order with the final generated images, we argue that this assumption neglects step-specific denoising performance and that preference labels should be tailored to each step's contribution. To address this limitation, we propose Step-aware Preference Optimization (SPO), a novel post-training approach that independently evaluates and adjusts the denoising performance at each step, using a step-aware preference model and a step-wise resampler to ensure accurate step-aware supervision. Specifically, at each denoising step, we sample a pool of images, find a suitable win-lose pair, and, most importantly, randomly select a single image from the pool to initialize the next denoising step. This step-wise resampler process ensures the next win-lose image pair comes from the same image, making the win-lose comparison independent of the previous step. To assess the preferences at each step, we train a separate step-aware preference model that can be applied to both noisy and clean images. Our experiments with Stable Diffusion v1.5 and SDXL demonstrate that SPO significantly outperforms the latest Diffusion-DPO in aligning generated images with complex, detailed prompts and enhancing aesthetics, while also achieving more than 20x times faster in training efficiency. Code and model: https://rockeycoss.github.io/spo.github.io/
PDF302February 7, 2026