Ottimizzazione delle Preferenze Consapevole del Passo: Allineamento delle Preferenze con le Prestazioni di Denoising a Ogni Passo
Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step
June 6, 2024
Autori: Zhanhao Liang, Yuhui Yuan, Shuyang Gu, Bohan Chen, Tiankai Hang, Ji Li, Liang Zheng
cs.AI
Abstract
Recentemente, l'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) ha esteso il suo successo dall'allineamento di grandi modelli linguistici (LLM) all'allineamento di modelli di diffusione testo-immagine con le preferenze umane. A differenza della maggior parte dei metodi DPO esistenti, che presuppongono che tutti i passi di diffusione condividano un ordine di preferenza coerente con le immagini generate finali, sosteniamo che questa ipotesi trascura le prestazioni specifiche di ogni passo nel processo di denoising e che le etichette di preferenza dovrebbero essere adattate al contributo di ciascun passo. Per affrontare questa limitazione, proponiamo l'ottimizzazione delle preferenze consapevole del passo (Step-aware Preference Optimization, SPO), un nuovo approccio post-addestramento che valuta e regola in modo indipendente le prestazioni di denoising a ogni passo, utilizzando un modello di preferenza consapevole del passo e un ricampionatore passo-passo per garantire una supervisione accurata e specifica per ogni passo. In particolare, a ogni passo di denoising, campioniamo un insieme di immagini, troviamo una coppia vincente-perdente adatta e, soprattutto, selezioniamo casualmente una singola immagine dall'insieme per inizializzare il passo successivo di denoising. Questo processo di ricampionamento passo-passo assicura che la prossima coppia di immagini vincente-perdente provenga dalla stessa immagine, rendendo il confronto vincente-perdente indipendente dal passo precedente. Per valutare le preferenze a ogni passo, addestriamo un modello di preferenza consapevole del passo separato, che può essere applicato sia a immagini rumorose che a immagini pulite. I nostri esperimenti con Stable Diffusion v1.5 e SDXL dimostrano che SPO supera significativamente l'ultima versione di Diffusion-DPO nell'allineamento delle immagini generate con prompt complessi e dettagliati e nel miglioramento dell'estetica, raggiungendo inoltre un'efficienza di addestramento più di 20 volte superiore. Codice e modello: https://rockeycoss.github.io/spo.github.io/
English
Recently, Direct Preference Optimization (DPO) has extended its success from
aligning large language models (LLMs) to aligning text-to-image diffusion
models with human preferences. Unlike most existing DPO methods that assume all
diffusion steps share a consistent preference order with the final generated
images, we argue that this assumption neglects step-specific denoising
performance and that preference labels should be tailored to each step's
contribution. To address this limitation, we propose Step-aware Preference
Optimization (SPO), a novel post-training approach that independently evaluates
and adjusts the denoising performance at each step, using a step-aware
preference model and a step-wise resampler to ensure accurate step-aware
supervision. Specifically, at each denoising step, we sample a pool of images,
find a suitable win-lose pair, and, most importantly, randomly select a single
image from the pool to initialize the next denoising step. This step-wise
resampler process ensures the next win-lose image pair comes from the same
image, making the win-lose comparison independent of the previous step. To
assess the preferences at each step, we train a separate step-aware preference
model that can be applied to both noisy and clean images. Our experiments with
Stable Diffusion v1.5 and SDXL demonstrate that SPO significantly outperforms
the latest Diffusion-DPO in aligning generated images with complex, detailed
prompts and enhancing aesthetics, while also achieving more than 20x times
faster in training efficiency. Code and model:
https://rockeycoss.github.io/spo.github.io/