YINYANG-ALIGN: Valutazione delle Obiettivi Contraddittori e Proposta di Ottimizzazione Multi-Obiettivo basata su DPO per l'Allineamento Testo-Immagine
YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment
February 5, 2025
Autori: Amitava Das, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit Sheth
cs.AI
Abstract
Un'allineamento preciso nei sistemi Testo-Immagine (T2I) è cruciale per garantire che le immagini generate non solo racchiudano accuratamente le intenzioni dell'utente, ma rispettino anche rigorosi criteri etici ed estetici. Incidenti come il fiasco di Google Gemini, in cui le uscite non allineate hanno scatenato una significativa reazione pubblica, sottolineano l'importante necessità di meccanismi di allineamento robusti. Al contrario, i Grandi Modelli Linguistici (LLM) hanno ottenuto notevoli successi nell'allineamento. Basandosi su questi progressi, i ricercatori sono desiderosi di applicare tecniche di allineamento simili, come l'ottimizzazione diretta delle preferenze (DPO), ai sistemi T2I per migliorare la fedeltà e l'affidabilità nella generazione di immagini.
Presentiamo YinYangAlign, un avanzato framework di valutazione che quantifica sistematicamente la fedeltà all'allineamento dei sistemi T2I, affrontando sei obiettivi di progettazione fondamentali e intrinsecamente contraddittori. Ogni coppia rappresenta tensioni fondamentali nella generazione di immagini, come bilanciare l'aderenza alle indicazioni dell'utente con modifiche creative o mantenere la diversità insieme alla coerenza visiva. YinYangAlign include dettagliati dataset di assiomi con indicazioni umane, risposte allineate (scelte), uscite generate dall'IA non allineate (scartate) e spiegazioni delle contraddizioni sottostanti.
English
Precise alignment in Text-to-Image (T2I) systems is crucial to ensure that
generated visuals not only accurately encapsulate user intents but also conform
to stringent ethical and aesthetic benchmarks. Incidents like the Google Gemini
fiasco, where misaligned outputs triggered significant public backlash,
underscore the critical need for robust alignment mechanisms. In contrast,
Large Language Models (LLMs) have achieved notable success in alignment.
Building on these advancements, researchers are eager to apply similar
alignment techniques, such as Direct Preference Optimization (DPO), to T2I
systems to enhance image generation fidelity and reliability.
We present YinYangAlign, an advanced benchmarking framework that
systematically quantifies the alignment fidelity of T2I systems, addressing six
fundamental and inherently contradictory design objectives. Each pair
represents fundamental tensions in image generation, such as balancing
adherence to user prompts with creative modifications or maintaining diversity
alongside visual coherence. YinYangAlign includes detailed axiom datasets
featuring human prompts, aligned (chosen) responses, misaligned (rejected)
AI-generated outputs, and explanations of the underlying contradictions.Summary
AI-Generated Summary