YINYANG-ALIGN: Avaliando Objetivos Contraditórios e Propondo Otimização Multi-Objetivo baseada em DPO para Alinhamento de Texto para Imagem
YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment
February 5, 2025
Autores: Amitava Das, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit Sheth
cs.AI
Resumo
O alinhamento preciso nos sistemas de Texto-para-Imagem (T2I) é crucial para garantir que as imagens geradas não apenas encapsulem com precisão as intenções do usuário, mas também estejam em conformidade com rigorosos padrões éticos e estéticos. Incidentes como o fiasco do Google Gemini, onde saídas desalinhadas desencadearam significativas críticas públicas, destacam a necessidade crítica de mecanismos de alinhamento robustos. Em contraste, os Modelos de Linguagem Grandes (LLMs) alcançaram sucesso notável em alinhamento. Aproveitando esses avanços, os pesquisadores estão ansiosos para aplicar técnicas de alinhamento semelhantes, como a Otimização Direta de Preferências (DPO), aos sistemas T2I para aprimorar a fidelidade e confiabilidade na geração de imagens.
Apresentamos o YinYangAlign, um avançado framework de benchmarking que quantifica sistematicamente a fidelidade de alinhamento dos sistemas T2I, abordando seis objetivos de design fundamentais e inerentemente contraditórios. Cada par representa tensões fundamentais na geração de imagens, como equilibrar a aderência às instruções do usuário com modificações criativas ou manter a diversidade juntamente com a coerência visual. O YinYangAlign inclui conjuntos de dados de axiomas detalhados com instruções humanas, respostas alinhadas (escolhidas), saídas geradas por IA desalinhadas (rejeitadas) e explicações das contradições subjacentes.
English
Precise alignment in Text-to-Image (T2I) systems is crucial to ensure that
generated visuals not only accurately encapsulate user intents but also conform
to stringent ethical and aesthetic benchmarks. Incidents like the Google Gemini
fiasco, where misaligned outputs triggered significant public backlash,
underscore the critical need for robust alignment mechanisms. In contrast,
Large Language Models (LLMs) have achieved notable success in alignment.
Building on these advancements, researchers are eager to apply similar
alignment techniques, such as Direct Preference Optimization (DPO), to T2I
systems to enhance image generation fidelity and reliability.
We present YinYangAlign, an advanced benchmarking framework that
systematically quantifies the alignment fidelity of T2I systems, addressing six
fundamental and inherently contradictory design objectives. Each pair
represents fundamental tensions in image generation, such as balancing
adherence to user prompts with creative modifications or maintaining diversity
alongside visual coherence. YinYangAlign includes detailed axiom datasets
featuring human prompts, aligned (chosen) responses, misaligned (rejected)
AI-generated outputs, and explanations of the underlying contradictions.Summary
AI-Generated Summary