YINYANG-ALIGN: Avaliando Objetivos Contraditórios e Propondo Otimização Multi-Objetivo baseada em DPO para Alinhamento de Texto para Imagem

Resumo

O alinhamento preciso nos sistemas de Texto-para-Imagem (T2I) é crucial para garantir que as imagens geradas não apenas encapsulem com precisão as intenções do usuário, mas também estejam em conformidade com rigorosos padrões éticos e estéticos. Incidentes como o fiasco do Google Gemini, onde saídas desalinhadas desencadearam significativas críticas públicas, destacam a necessidade crítica de mecanismos de alinhamento robustos. Em contraste, os Modelos de Linguagem Grandes (LLMs) alcançaram sucesso notável em alinhamento. Aproveitando esses avanços, os pesquisadores estão ansiosos para aplicar técnicas de alinhamento semelhantes, como a Otimização Direta de Preferências (DPO), aos sistemas T2I para aprimorar a fidelidade e confiabilidade na geração de imagens. Apresentamos o YinYangAlign, um avançado framework de benchmarking que quantifica sistematicamente a fidelidade de alinhamento dos sistemas T2I, abordando seis objetivos de design fundamentais e inerentemente contraditórios. Cada par representa tensões fundamentais na geração de imagens, como equilibrar a aderência às instruções do usuário com modificações criativas ou manter a diversidade juntamente com a coerência visual. O YinYangAlign inclui conjuntos de dados de axiomas detalhados com instruções humanas, respostas alinhadas (escolhidas), saídas geradas por IA desalinhadas (rejeitadas) e explicações das contradições subjacentes.

English

Precise alignment in Text-to-Image (T2I) systems is crucial to ensure that generated visuals not only accurately encapsulate user intents but also conform to stringent ethical and aesthetic benchmarks. Incidents like the Google Gemini fiasco, where misaligned outputs triggered significant public backlash, underscore the critical need for robust alignment mechanisms. In contrast, Large Language Models (LLMs) have achieved notable success in alignment. Building on these advancements, researchers are eager to apply similar alignment techniques, such as Direct Preference Optimization (DPO), to T2I systems to enhance image generation fidelity and reliability. We present YinYangAlign, an advanced benchmarking framework that systematically quantifies the alignment fidelity of T2I systems, addressing six fundamental and inherently contradictory design objectives. Each pair represents fundamental tensions in image generation, such as balancing adherence to user prompts with creative modifications or maintaining diversity alongside visual coherence. YinYangAlign includes detailed axiom datasets featuring human prompts, aligned (chosen) responses, misaligned (rejected) AI-generated outputs, and explanations of the underlying contradictions.

YINYANG-ALIGN: Avaliando Objetivos Contraditórios e Propondo Otimização Multi-Objetivo baseada em DPO para Alinhamento de Texto para Imagem

YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment

Resumo

Support