Randbewusste Präferenzoptimierung zur Ausrichtung von Diffusionsmodellen ohne Referenz
Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
June 10, 2024
Autoren: Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong
cs.AI
Zusammenfassung
Moderne Ausrichtungstechniken basierend auf menschlichen Präferenzen, wie RLHF und DPO, verwenden in der Regel Divergenzregularisierung relativ zum Referenzmodell, um die Trainingsstabilität zu gewährleisten. Dies beschränkt jedoch oft die Flexibilität der Modelle während der Ausrichtung, insbesondere wenn es eine klare Verteilungsabweichung zwischen den Präferenzdaten und dem Referenzmodell gibt. In diesem Paper konzentrieren wir uns auf die Ausrichtung von aktuellen Text-zu-Bild-Diffusionsmodellen, wie Stable Diffusion XL (SDXL), und stellen fest, dass dieses "Referenzmismatch" tatsächlich ein signifikantes Problem bei der Ausrichtung dieser Modelle aufgrund der unstrukturierten Natur der visuellen Modalitäten ist: z.B. kann eine Präferenz für einen bestimmten stilistischen Aspekt leicht eine solche Diskrepanz hervorrufen. Angeregt durch diese Beobachtung schlagen wir eine neuartige und speichereffiziente Präferenzausrichtungsmethode für Diffusionsmodelle vor, die nicht von einem Referenzmodell abhängt, genannt margin-aware preference optimization (MaPO). MaPO maximiert gemeinsam den Wahrscheinlichkeitsabstand zwischen den bevorzugten und nicht bevorzugten Bildersets und die Wahrscheinlichkeit der bevorzugten Sets, wobei gleichzeitig allgemeine stilistische Merkmale und Präferenzen gelernt werden. Zur Evaluation führen wir zwei neue paarweise Präferenzdatensätze ein, die selbstgenerierte Bildpaare von SDXL, Pick-Style und Pick-Safety, umfassen und verschiedene Szenarien des Referenzmismatches simulieren. Unsere Experimente bestätigen, dass MaPO die Ausrichtung bei Pick-Style und Pick-Safety sowie die allgemeine Präferenzausrichtung bei Verwendung von Pick-a-Pic v2 signifikant verbessern kann, wobei SDXL und andere bestehende Methoden übertroffen werden. Unser Code, Modelle und Datensätze sind öffentlich über https://mapo-t2i.github.io verfügbar.
English
Modern alignment techniques based on human preferences, such as RLHF and DPO,
typically employ divergence regularization relative to the reference model to
ensure training stability. However, this often limits the flexibility of models
during alignment, especially when there is a clear distributional discrepancy
between the preference data and the reference model. In this paper, we focus on
the alignment of recent text-to-image diffusion models, such as Stable
Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a
significant problem in aligning these models due to the unstructured nature of
visual modalities: e.g., a preference for a particular stylistic aspect can
easily induce such a discrepancy. Motivated by this observation, we propose a
novel and memory-friendly preference alignment method for diffusion models that
does not depend on any reference model, coined margin-aware preference
optimization (MaPO). MaPO jointly maximizes the likelihood margin between the
preferred and dispreferred image sets and the likelihood of the preferred sets,
simultaneously learning general stylistic features and preferences. For
evaluation, we introduce two new pairwise preference datasets, which comprise
self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating
diverse scenarios of reference mismatch. Our experiments validate that MaPO can
significantly improve alignment on Pick-Style and Pick-Safety and general
preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and
other existing methods. Our code, models, and datasets are publicly available
via https://mapo-t2i.github.ioSummary
AI-Generated Summary