ChatPaper.aiChatPaper

RLVF: Lernen aus verbalem Feedback ohne Überverallgemeinerung

RLVF: Learning from Verbal Feedback without Overgeneralization

February 16, 2024
Autoren: Moritz Stephan, Alexander Khazatsky, Eric Mitchell, Annie S Chen, Sheryl Hsu, Archit Sharma, Chelsea Finn
cs.AI

Zusammenfassung

Die Vielfalt der Kontexte, in denen große Sprachmodelle (LLMs) eingesetzt werden, erfordert die Fähigkeit, Standardverhalten des Modells anzupassen oder zu individualisieren, um differenzierte Anforderungen und Präferenzen zu berücksichtigen. Eine praktische Schnittstelle zur Spezifikation solcher Modellanpassungen ist hochrangiges verbales Feedback, wie z. B. „Verwende keine Emojis, wenn du E-Mails an meinen Chef verfasst.“ Obwohl das Verfassen von hochrangigem Feedback weitaus einfacher ist als das Sammeln von Annotationen für Reinforcement Learning aus menschlichem Feedback (RLHF), stellen wir fest, dass die bloße Eingabe eines solchen Feedbacks in das Modell zu einer Überverallgemeinerung des Feedbacks auf Kontexte führt, in denen es nicht relevant ist. Wir untersuchen das Problem der Einbindung von verbalem Feedback ohne eine solche Überverallgemeinerung, was zu einer neuen Methode führt: Contextualized Critiques with Constrained Preference Optimization (C3PO). C3PO verwendet ein Stück hochrangiges Feedback, um einen kleinen synthetischen Präferenzdatensatz zu generieren, der spezifiziert, wie das Feedback angewendet werden sollte (und wie nicht). Anschließend wird das Modell gemäß der synthetischen Präferenzdaten feinabgestimmt, wobei die Abweichung vom ursprünglichen Modell für Eingabeaufforderungen, auf die das Feedback nicht zutrifft, minimiert wird. Unsere experimentellen Ergebnisse zeigen, dass unser Ansatz verbales Feedback effektiv auf relevante Szenarien anwendet, während bestehende Verhaltensweisen für andere Kontexte erhalten bleiben. Sowohl für menschliches als auch für GPT-4-generiertes hochrangiges Feedback hält sich C3PO vergleichbar gut an das gegebene Feedback wie In-Context-Baselines und reduziert die Überverallgemeinerung um 30 %.
English
The diversity of contexts in which large language models (LLMs) are deployed requires the ability to modify or customize default model behaviors to incorporate nuanced requirements and preferences. A convenient interface to specify such model adjustments is high-level verbal feedback, such as "Don't use emojis when drafting emails to my boss." However, while writing high-level feedback is far simpler than collecting annotations for reinforcement learning from human feedback (RLHF), we find that simply prompting a model with such feedback leads to overgeneralization of the feedback to contexts where it is not relevant. We study the problem of incorporating verbal feedback without such overgeneralization, inspiring a new method Contextualized Critiques with Constrained Preference Optimization (C3PO). C3PO uses a piece of high-level feedback to generate a small synthetic preference dataset specifying how the feedback should (and should not) be applied. It then fine-tunes the model in accordance with the synthetic preference data while minimizing the divergence from the original model for prompts where the feedback does not apply. Our experimental results indicate that our approach effectively applies verbal feedback to relevant scenarios while preserving existing behaviors for other contexts. For both human- and GPT-4-generated high-level feedback, C3PO effectively adheres to the given feedback comparably to in-context baselines while reducing overgeneralization by 30%.

Summary

AI-Generated Summary

PDF122December 15, 2024