DRAGON: Ricompense Distribuzionali Ottimizzano Modelli Generativi a Diffusione
DRAGON: Distributional Rewards Optimize Diffusion Generative Models
April 21, 2025
Autori: Yatong Bai, Jonah Casebeer, Somayeh Sojoudi, Nicholas J. Bryan
cs.AI
Abstract
Presentiamo Distributional RewArds for Generative OptimizatioN (DRAGON), un framework versatile per il fine-tuning di modelli di generazione di media verso un risultato desiderato. Rispetto ai tradizionali approcci di reinforcement learning con feedback umano (RLHF) o alle metodologie basate su preferenze a coppie come l'ottimizzazione diretta delle preferenze (DPO), DRAGON è più flessibile. Può ottimizzare funzioni di ricompensa che valutano sia singoli esempi che distribuzioni di essi, rendendolo compatibile con un ampio spettro di ricompense a livello di istanza, istanza-distribuzione e distribuzione-distribuzione. Sfruttando questa versatilità, costruiamo nuove funzioni di ricompensa selezionando un encoder e un insieme di esempi di riferimento per creare una distribuzione esemplare. Quando vengono utilizzati encoder cross-modalità come CLAP, gli esempi di riferimento possono appartenere a una modalità diversa (ad esempio, testo rispetto ad audio). Successivamente, DRAGON raccoglie generazioni online e on-policy, le valuta per costruire un insieme di dimostrazioni positive e uno negativo, e sfrutta il contrasto tra i due insiemi per massimizzare la ricompensa. Per la valutazione, abbiamo eseguito il fine-tuning di un modello di diffusione testo-musica nel dominio audio con 20 diverse funzioni di ricompensa, tra cui un modello personalizzato di estetica musicale, punteggio CLAP, diversità Vendi e distanza audio di Fréchet (FAD). Abbiamo inoltre confrontato impostazioni FAD a livello di istanza (per canzone) e su interi dataset, mentre eseguivamo l'ablation di più encoder FAD e insiemi di riferimento. Su tutte le 20 ricompense target, DRAGON raggiunge una percentuale media di vittoria dell'81,45%. Inoltre, le funzioni di ricompensa basate su insiemi esemplari migliorano effettivamente le generazioni e sono comparabili alle ricompense basate su modelli. Con un insieme esemplare appropriato, DRAGON raggiunge una percentuale di vittoria nella qualità musicale votata dagli esseri umani del 60,95% senza addestramento su annotazioni di preferenze umane. In questo modo, DRAGON rappresenta un nuovo approccio alla progettazione e ottimizzazione delle funzioni di ricompensa per migliorare la qualità percepita dagli esseri umani. Esempi audio disponibili su https://ml-dragon.github.io/web.
English
We present Distributional RewArds for Generative OptimizatioN (DRAGON), a
versatile framework for fine-tuning media generation models towards a desired
outcome. Compared with traditional reinforcement learning with human feedback
(RLHF) or pairwise preference approaches such as direct preference optimization
(DPO), DRAGON is more flexible. It can optimize reward functions that evaluate
either individual examples or distributions of them, making it compatible with
a broad spectrum of instance-wise, instance-to-distribution, and
distribution-to-distribution rewards. Leveraging this versatility, we construct
novel reward functions by selecting an encoder and a set of reference examples
to create an exemplar distribution. When cross-modality encoders such as CLAP
are used, the reference examples may be of a different modality (e.g., text
versus audio). Then, DRAGON gathers online and on-policy generations, scores
them to construct a positive demonstration set and a negative set, and
leverages the contrast between the two sets to maximize the reward. For
evaluation, we fine-tune an audio-domain text-to-music diffusion model with 20
different reward functions, including a custom music aesthetics model, CLAP
score, Vendi diversity, and Frechet audio distance (FAD). We further compare
instance-wise (per-song) and full-dataset FAD settings while ablating multiple
FAD encoders and reference sets. Over all 20 target rewards, DRAGON achieves an
81.45% average win rate. Moreover, reward functions based on exemplar sets
indeed enhance generations and are comparable to model-based rewards. With an
appropriate exemplar set, DRAGON achieves a 60.95% human-voted music quality
win rate without training on human preference annotations. As such, DRAGON
exhibits a new approach to designing and optimizing reward functions for
improving human-perceived quality. Sound examples at
https://ml-dragon.github.io/web.Summary
AI-Generated Summary