DPOK: Apprendimento per Rinforzo per il Fine-tuning dei Modelli di Diffusione Testo-Immagine

Abstract

L'apprendimento dal feedback umano si è dimostrato efficace nel migliorare i modelli di generazione di immagini da testo. Queste tecniche iniziano apprendendo una funzione di ricompensa che cattura ciò che gli esseri umani considerano importante nel compito, per poi migliorare i modelli basandosi su tale funzione. Nonostante siano stati esplorati approcci relativamente semplici (ad esempio, il campionamento per rifiuto basato sui punteggi di ricompensa), il fine-tuning dei modelli di generazione di immagini da testo utilizzando la funzione di ricompensa rimane una sfida. In questo lavoro, proponiamo l'uso del reinforcement learning (RL) online per effettuare il fine-tuning di questi modelli. Ci concentriamo sui modelli di diffusione, definendo il compito di fine-tuning come un problema di RL e aggiornando i modelli pre-addestrati di generazione di immagini da testo utilizzando il gradiente della politica per massimizzare la ricompensa appresa dal feedback. Il nostro approccio, denominato DPOK, integra l'ottimizzazione della politica con la regolarizzazione KL. Effettuiamo un'analisi della regolarizzazione KL sia per il fine-tuning RL che per il fine-tuning supervisionato. Nei nostri esperimenti, dimostriamo che DPOK è generalmente superiore al fine-tuning supervisionato sia per quanto riguarda l'allineamento immagine-testo che la qualità dell'immagine.

English

Learning from human feedback has been shown to improve text-to-image models. These techniques first learn a reward function that captures what humans care about in the task and then improve the models based on the learned reward function. Even though relatively simple approaches (e.g., rejection sampling based on reward scores) have been investigated, fine-tuning text-to-image models with the reward function remains challenging. In this work, we propose using online reinforcement learning (RL) to fine-tune text-to-image models. We focus on diffusion models, defining the fine-tuning task as an RL problem, and updating the pre-trained text-to-image diffusion models using policy gradient to maximize the feedback-trained reward. Our approach, coined DPOK, integrates policy optimization with KL regularization. We conduct an analysis of KL regularization for both RL fine-tuning and supervised fine-tuning. In our experiments, we show that DPOK is generally superior to supervised fine-tuning with respect to both image-text alignment and image quality.

DPOK: Apprendimento per Rinforzo per il Fine-tuning dei Modelli di Diffusione Testo-Immagine

DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

Abstract

Support