ChatPaper.aiChatPaper

Präferenzabstimmung mit menschlichem Feedback zu Sprache, Sprache und Vision: Eine Umfrage

Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey

September 17, 2024
Autoren: Genta Indra Winata, Hanyang Zhao, Anirban Das, Wenpin Tang, David D. Yao, Shi-Xiong Zhang, Sambit Sahu
cs.AI

Zusammenfassung

Die Feineinstellung von Präferenzen ist ein entscheidender Prozess zur Ausrichtung von tiefen generativen Modellen mit menschlichen Präferenzen. Diese Übersicht bietet einen gründlichen Überblick über die jüngsten Fortschritte bei der Feineinstellung von Präferenzen und der Integration von menschlichem Feedback. Der Artikel ist in drei Hauptabschnitte unterteilt: 1) Einführung und Grundlagen: eine Einführung in die Rahmenbedingungen des Reinforcement-Learning, Präferenzfeineinstellungsaufgaben, Modelle und Datensätze in verschiedenen Modalitäten wie Sprache, Sprache und Vision sowie verschiedene Policy-Ansätze, 2) eingehende Untersuchung jeder Präferenzfeineinstellungsmethode: eine detaillierte Analyse der verwendeten Methoden bei der Feineinstellung von Präferenzen, und 3) Anwendungen, Diskussion und zukünftige Richtungen: eine Erkundung der Anwendungen der Präferenzfeineinstellung in nachgelagerten Aufgaben, einschließlich Bewertungsmethoden für verschiedene Modalitäten, sowie einen Ausblick auf zukünftige Forschungsrichtungen. Unser Ziel ist es, die neuesten Methodologien in der Präferenzfeineinstellung und Modellausrichtung vorzustellen, um das Verständnis dieses Bereichs für Forscher und Praktiker zu verbessern. Wir hoffen, weiteres Engagement und Innovation in diesem Bereich zu fördern.
English
Preference tuning is a crucial process for aligning deep generative models with human preferences. This survey offers a thorough overview of recent advancements in preference tuning and the integration of human feedback. The paper is organized into three main sections: 1) introduction and preliminaries: an introduction to reinforcement learning frameworks, preference tuning tasks, models, and datasets across various modalities: language, speech, and vision, as well as different policy approaches, 2) in-depth examination of each preference tuning approach: a detailed analysis of the methods used in preference tuning, and 3) applications, discussion, and future directions: an exploration of the applications of preference tuning in downstream tasks, including evaluation methods for different modalities, and an outlook on future research directions. Our objective is to present the latest methodologies in preference tuning and model alignment, enhancing the understanding of this field for researchers and practitioners. We hope to encourage further engagement and innovation in this area.

Summary

AI-Generated Summary

PDF212November 16, 2024