DRAGON: Verteilungsbasierte Belohnungen optimieren generative Diffusionsmodelle

papers.abstract

Wir präsentieren Distributional RewArds for Generative OptimizatioN (DRAGON), ein vielseitiges Framework zur Feinabstimmung von Medien-Generierungsmodellen hin zu einem gewünschten Ergebnis. Im Vergleich zu traditionellem Reinforcement Learning mit menschlichem Feedback (RLHF) oder paarweisen Präferenzansätzen wie Direct Preference Optimization (DPO) ist DRAGON flexibler. Es kann Belohnungsfunktionen optimieren, die entweder einzelne Beispiele oder deren Verteilungen bewerten, wodurch es mit einer breiten Palette von instanzbasierten, instanz-zu-verteilungsbasierten und verteilungs-zu-verteilungsbasierten Belohnungen kompatibel ist. Durch die Nutzung dieser Vielseitigkeit konstruieren wir neuartige Belohnungsfunktionen, indem wir einen Encoder und eine Reihe von Referenzbeispielen auswählen, um eine Beispielverteilung zu erstellen. Wenn Cross-Modality-Encoder wie CLAP verwendet werden, können die Referenzbeispiele einer anderen Modalität angehören (z.B. Text versus Audio). Anschließend sammelt DRAGON Online- und On-Policy-Generierungen, bewertet sie, um einen positiven Demonstrationssatz und einen negativen Satz zu erstellen, und nutzt den Kontrast zwischen den beiden Sätzen, um die Belohnung zu maximieren. Zur Evaluierung feinabstimmen wir ein Audio-Domain-Text-zu-Musik-Diffusionsmodell mit 20 verschiedenen Belohnungsfunktionen, darunter ein benutzerdefiniertes Musikästhetikmodell, CLAP-Score, Vendi-Diversität und Frechet-Audio-Distanz (FAD). Wir vergleichen weiterhin instanzbasierte (pro Song) und vollständige Datensatz-FAD-Einstellungen, während wir mehrere FAD-Encoder und Referenzsätze ablieren. Über alle 20 Zielbelohnungen hinweg erreicht DRAGON eine durchschnittliche Gewinnrate von 81,45%. Darüber hinaus verbessern Belohnungsfunktionen, die auf Beispielsätzen basieren, tatsächlich die Generierungen und sind mit modellbasierten Belohnungen vergleichbar. Mit einem geeigneten Beispielsatz erreicht DRAGON eine 60,95%ige menschlich bewertete Musikqualitäts-Gewinnrate, ohne auf menschliche Präferenzannotationen trainiert zu werden. Somit zeigt DRAGON einen neuen Ansatz zur Gestaltung und Optimierung von Belohnungsfunktionen zur Verbesserung der menschlich wahrgenommenen Qualität. Klangbeispiele finden Sie unter https://ml-dragon.github.io/web.

English

We present Distributional RewArds for Generative OptimizatioN (DRAGON), a versatile framework for fine-tuning media generation models towards a desired outcome. Compared with traditional reinforcement learning with human feedback (RLHF) or pairwise preference approaches such as direct preference optimization (DPO), DRAGON is more flexible. It can optimize reward functions that evaluate either individual examples or distributions of them, making it compatible with a broad spectrum of instance-wise, instance-to-distribution, and distribution-to-distribution rewards. Leveraging this versatility, we construct novel reward functions by selecting an encoder and a set of reference examples to create an exemplar distribution. When cross-modality encoders such as CLAP are used, the reference examples may be of a different modality (e.g., text versus audio). Then, DRAGON gathers online and on-policy generations, scores them to construct a positive demonstration set and a negative set, and leverages the contrast between the two sets to maximize the reward. For evaluation, we fine-tune an audio-domain text-to-music diffusion model with 20 different reward functions, including a custom music aesthetics model, CLAP score, Vendi diversity, and Frechet audio distance (FAD). We further compare instance-wise (per-song) and full-dataset FAD settings while ablating multiple FAD encoders and reference sets. Over all 20 target rewards, DRAGON achieves an 81.45% average win rate. Moreover, reward functions based on exemplar sets indeed enhance generations and are comparable to model-based rewards. With an appropriate exemplar set, DRAGON achieves a 60.95% human-voted music quality win rate without training on human preference annotations. As such, DRAGON exhibits a new approach to designing and optimizing reward functions for improving human-perceived quality. Sound examples at https://ml-dragon.github.io/web.

DRAGON: Verteilungsbasierte Belohnungen optimieren generative Diffusionsmodelle

DRAGON: Distributional Rewards Optimize Diffusion Generative Models

papers.abstract

Support