ChatPaper.aiChatPaper

Diffusiemodellen uitlijnen door menselijk nut te optimaliseren

Aligning Diffusion Models by Optimizing Human Utility

April 6, 2024
Auteurs: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka
cs.AI

Samenvatting

We presenteren Diffusion-KTO, een nieuwe benadering voor het uitlijnen van tekst-naar-beeld diffusiemodellen door het uitlijningsdoel te formuleren als de maximalisatie van verwachte menselijke nut. Omdat dit doel van toepassing is op elke generatie afzonderlijk, vereist Diffusion-KTO niet het verzamelen van kostbare gepaarde voorkeursdata noch het trainen van een complex beloningsmodel. In plaats daarvan vereist ons doel eenvoudige binaire feedbacksignalen per afbeelding, zoals likes of dislikes, die ruimschoots beschikbaar zijn. Na fine-tuning met Diffusion-KTO vertonen tekst-naar-beeld diffusiemodellen superieure prestaties in vergelijking met bestaande technieken, waaronder supervised fine-tuning en Diffusion-DPO, zowel in termen van menselijk oordeel als automatische evaluatiemetrics zoals PickScore en ImageReward. Over het algemeen ontsluit Diffusion-KTO het potentieel van het benutten van gemakkelijk beschikbare binaire signalen per afbeelding en verbreedt het de toepasbaarheid van het uitlijnen van tekst-naar-beeld diffusiemodellen met menselijke voorkeuren.
English
We present Diffusion-KTO, a novel approach for aligning text-to-image diffusion models by formulating the alignment objective as the maximization of expected human utility. Since this objective applies to each generation independently, Diffusion-KTO does not require collecting costly pairwise preference data nor training a complex reward model. Instead, our objective requires simple per-image binary feedback signals, e.g. likes or dislikes, which are abundantly available. After fine-tuning using Diffusion-KTO, text-to-image diffusion models exhibit superior performance compared to existing techniques, including supervised fine-tuning and Diffusion-DPO, both in terms of human judgment and automatic evaluation metrics such as PickScore and ImageReward. Overall, Diffusion-KTO unlocks the potential of leveraging readily available per-image binary signals and broadens the applicability of aligning text-to-image diffusion models with human preferences.
PDF151December 15, 2024