ChatPaper.aiChatPaper

YINYANG-ALIGN: Evaluación comparativa de objetivos contradictorios y propuesta de Optimización Multi-Objetivo basada en DPO para la alineación de texto a imagen.

YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment

February 5, 2025
Autores: Amitava Das, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit Sheth
cs.AI

Resumen

La alineación precisa en los sistemas de Texto a Imagen (T2I) es crucial para asegurar que las imágenes generadas no solo encapsulen con precisión las intenciones del usuario, sino que también cumplan con estrictos estándares éticos y estéticos. Incidentes como el fiasco de Google Gemini, donde salidas desalineadas desencadenaron una significativa reacción pública, subrayan la necesidad crítica de mecanismos de alineación robustos. En contraste, los Modelos de Lenguaje Grandes (LLMs) han logrado un notable éxito en la alineación. Basándose en estos avances, los investigadores están ansiosos por aplicar técnicas de alineación similares, como la Optimización Directa de Preferencias (DPO), a los sistemas T2I para mejorar la fidelidad y confiabilidad en la generación de imágenes. Presentamos YinYangAlign, un avanzado marco de referencia que cuantifica sistemáticamente la fidelidad de alineación de los sistemas T2I, abordando seis objetivos de diseño fundamentales e inherentemente contradictorios. Cada par representa tensiones fundamentales en la generación de imágenes, como equilibrar la adhesión a las indicaciones del usuario con modificaciones creativas o mantener la diversidad junto con la coherencia visual. YinYangAlign incluye detallados conjuntos de datos axiomáticos con indicaciones humanas, respuestas alineadas (elegidas), salidas generadas por IA desalineadas (rechazadas) y explicaciones de las contradicciones subyacentes.
English
Precise alignment in Text-to-Image (T2I) systems is crucial to ensure that generated visuals not only accurately encapsulate user intents but also conform to stringent ethical and aesthetic benchmarks. Incidents like the Google Gemini fiasco, where misaligned outputs triggered significant public backlash, underscore the critical need for robust alignment mechanisms. In contrast, Large Language Models (LLMs) have achieved notable success in alignment. Building on these advancements, researchers are eager to apply similar alignment techniques, such as Direct Preference Optimization (DPO), to T2I systems to enhance image generation fidelity and reliability. We present YinYangAlign, an advanced benchmarking framework that systematically quantifies the alignment fidelity of T2I systems, addressing six fundamental and inherently contradictory design objectives. Each pair represents fundamental tensions in image generation, such as balancing adherence to user prompts with creative modifications or maintaining diversity alongside visual coherence. YinYangAlign includes detailed axiom datasets featuring human prompts, aligned (chosen) responses, misaligned (rejected) AI-generated outputs, and explanations of the underlying contradictions.

Summary

AI-Generated Summary

PDF52February 10, 2025