ChatPaper.aiChatPaper

YINYANG-ALIGN: Het beoordelen van tegenstrijdige doelstellingen en het voorstellen van Multi-Objective Optimization gebaseerde DPO voor Tekst-naar-Afbeelding Alignering.

YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment

February 5, 2025
Auteurs: Amitava Das, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit Sheth
cs.AI

Samenvatting

Een nauwkeurige afstemming in Tekst-naar-Afbeelding (T2I) systemen is cruciaal om ervoor te zorgen dat gegenereerde visuals niet alleen nauwkeurig de intenties van gebruikers vastleggen, maar ook voldoen aan strikte ethische en esthetische normen. Incidenten zoals het Google Gemini fiasco, waarbij verkeerd uitgelijnde resultaten aanzienlijke publieke verontwaardiging veroorzaakten, benadrukken de kritieke behoefte aan robuuste uitlijningsmechanismen. In tegenstelling hiermee hebben Grote Taalmodellen (LLMs) opmerkelijk succes behaald in uitlijning. Voortbouwend op deze vooruitgang zijn onderzoekers enthousiast om vergelijkbare uitlijningstechnieken, zoals Directe VoorkeursOptimalisatie (DPO), toe te passen op T2I systemen om de betrouwbaarheid en geloofwaardigheid van beeldgeneratie te verbeteren. We presenteren YinYangAlign, een geavanceerd benchmarking framework dat systematisch de uitlijningsbetrouwbaarheid van T2I systemen kwantificeert, waarbij zes fundamentele en inherent tegenstrijdige ontwerpdoelstellingen worden aangepakt. Elk paar vertegenwoordigt fundamentele spanningen in beeldgeneratie, zoals het balanceren van het volgen van gebruikersaanwijzingen met creatieve aanpassingen of het handhaven van diversiteit naast visuele samenhang. YinYangAlign omvat gedetailleerde axioma datasets met menselijke aanwijzingen, uitgelijnde (gekozen) reacties, verkeerd uitgelijnde (afgewezen) door AI gegenereerde resultaten, en verklaringen van de onderliggende tegenstrijdigheden.
English
Precise alignment in Text-to-Image (T2I) systems is crucial to ensure that generated visuals not only accurately encapsulate user intents but also conform to stringent ethical and aesthetic benchmarks. Incidents like the Google Gemini fiasco, where misaligned outputs triggered significant public backlash, underscore the critical need for robust alignment mechanisms. In contrast, Large Language Models (LLMs) have achieved notable success in alignment. Building on these advancements, researchers are eager to apply similar alignment techniques, such as Direct Preference Optimization (DPO), to T2I systems to enhance image generation fidelity and reliability. We present YinYangAlign, an advanced benchmarking framework that systematically quantifies the alignment fidelity of T2I systems, addressing six fundamental and inherently contradictory design objectives. Each pair represents fundamental tensions in image generation, such as balancing adherence to user prompts with creative modifications or maintaining diversity alongside visual coherence. YinYangAlign includes detailed axiom datasets featuring human prompts, aligned (chosen) responses, misaligned (rejected) AI-generated outputs, and explanations of the underlying contradictions.

Summary

AI-Generated Summary

PDF52February 10, 2025