ChatPaper.aiChatPaper

YINYANG-ALIGN:相反する目標のベンチマークおよびテキストから画像へのアラインメントのための多目的最適化ベースのDPOの提案

YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment

February 5, 2025
著者: Amitava Das, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit Sheth
cs.AI

要旨

テキストから画像(T2I)システムにおける正確なアラインメントは、生成されたビジュアルがユーザーの意図を正確に表現するだけでなく、厳格な倫理的および美的基準に準拠することを確実にするために重要です。Google Geminiのような事例では、アラインメントの誤りが重大な公衆からの反発を引き起こしました。これは、堅牢なアラインメントメカニズムの重要性を強調しています。一方、大規模言語モデル(LLMs)はアラインメントにおいて注目すべき成功を収めています。これらの進展を基に、研究者たちは、直接的な選好最適化(DPO)などの類似のアラインメント手法をT2Iシステムに適用し、画像生成の忠実度と信頼性を向上させることに意欲を燃やしています。 YinYangAlignは、T2Iシステムのアラインメントの忠実度を系統的に定量化する先進的なベンチマークフレームワークを提供します。このフレームワークは、画像生成における基本的で本質的に矛盾する6つの設計目標に対処しています。各ペアは、ユーザープロンプトへの遵守と創造的な変更のバランス調整や、視覚的な一貫性と並行して多様性を維持するなど、画像生成における基本的な緊張関係を表しています。YinYangAlignには、人間のプロンプト、アラインされた(選択された)応答、アラインメントの誤り(拒否された)AI生成の出力、および矛盾の根底にある説明が含まれる詳細な公理データセットが含まれています。
English
Precise alignment in Text-to-Image (T2I) systems is crucial to ensure that generated visuals not only accurately encapsulate user intents but also conform to stringent ethical and aesthetic benchmarks. Incidents like the Google Gemini fiasco, where misaligned outputs triggered significant public backlash, underscore the critical need for robust alignment mechanisms. In contrast, Large Language Models (LLMs) have achieved notable success in alignment. Building on these advancements, researchers are eager to apply similar alignment techniques, such as Direct Preference Optimization (DPO), to T2I systems to enhance image generation fidelity and reliability. We present YinYangAlign, an advanced benchmarking framework that systematically quantifies the alignment fidelity of T2I systems, addressing six fundamental and inherently contradictory design objectives. Each pair represents fundamental tensions in image generation, such as balancing adherence to user prompts with creative modifications or maintaining diversity alongside visual coherence. YinYangAlign includes detailed axiom datasets featuring human prompts, aligned (chosen) responses, misaligned (rejected) AI-generated outputs, and explanations of the underlying contradictions.

Summary

AI-Generated Summary

PDF52February 10, 2025