YINYANG-ALIGN : Évaluation des objectifs contradictoires et proposition d'une optimisation multi-objectif basée sur DPO pour l'alignement texte-image
YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment
February 5, 2025
Auteurs: Amitava Das, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit Sheth
cs.AI
Résumé
Un alignement précis dans les systèmes Texte-vers-Image (T2I) est crucial pour garantir que les visuels générés non seulement encapsulent avec précision les intentions de l'utilisateur, mais aussi respectent des normes éthiques et esthétiques strictes. Des incidents tels que le fiasco de Google Gemini, où des sorties mal alignées ont déclenché une importante réaction du public, soulignent le besoin critique de mécanismes d'alignement robustes. En revanche, les Grands Modèles de Langage (GML) ont connu un succès notable en matière d'alignement. En s'appuyant sur ces avancées, les chercheurs sont impatients d'appliquer des techniques d'alignement similaires, telles que l'Optimisation Directe des Préférences (DPO), aux systèmes T2I pour améliorer la fidélité et la fiabilité de la génération d'images.
Nous présentons YinYangAlign, un cadre de référence avancé qui quantifie systématiquement la fidélité de l'alignement des systèmes T2I, en abordant six objectifs de conception fondamentaux et intrinsèquement contradictoires. Chaque paire représente des tensions fondamentales dans la génération d'images, telles que l'équilibre entre l'adhérence aux instructions de l'utilisateur et les modifications créatives, ou le maintien de la diversité tout en assurant la cohérence visuelle. YinYangAlign comprend des ensembles de données axiomatiques détaillés comprenant des instructions humaines, des réponses alignées (choisies), des sorties générées par l'IA mal alignées (rejetées) et des explications des contradictions sous-jacentes.
English
Precise alignment in Text-to-Image (T2I) systems is crucial to ensure that
generated visuals not only accurately encapsulate user intents but also conform
to stringent ethical and aesthetic benchmarks. Incidents like the Google Gemini
fiasco, where misaligned outputs triggered significant public backlash,
underscore the critical need for robust alignment mechanisms. In contrast,
Large Language Models (LLMs) have achieved notable success in alignment.
Building on these advancements, researchers are eager to apply similar
alignment techniques, such as Direct Preference Optimization (DPO), to T2I
systems to enhance image generation fidelity and reliability.
We present YinYangAlign, an advanced benchmarking framework that
systematically quantifies the alignment fidelity of T2I systems, addressing six
fundamental and inherently contradictory design objectives. Each pair
represents fundamental tensions in image generation, such as balancing
adherence to user prompts with creative modifications or maintaining diversity
alongside visual coherence. YinYangAlign includes detailed axiom datasets
featuring human prompts, aligned (chosen) responses, misaligned (rejected)
AI-generated outputs, and explanations of the underlying contradictions.Summary
AI-Generated Summary