RLVF: Lernen aus verbalem Feedback ohne Überverallgemeinerung
RLVF: Learning from Verbal Feedback without Overgeneralization
February 16, 2024
Autoren: Moritz Stephan, Alexander Khazatsky, Eric Mitchell, Annie S Chen, Sheryl Hsu, Archit Sharma, Chelsea Finn
cs.AI
Zusammenfassung
Die Vielfalt der Kontexte, in denen große Sprachmodelle (LLMs) eingesetzt werden, erfordert die Fähigkeit, Standardverhalten des Modells anzupassen oder zu individualisieren, um differenzierte Anforderungen und Präferenzen zu berücksichtigen. Eine praktische Schnittstelle zur Spezifikation solcher Modellanpassungen ist hochrangiges verbales Feedback, wie z. B. „Verwende keine Emojis, wenn du E-Mails an meinen Chef verfasst.“ Obwohl das Verfassen von hochrangigem Feedback weitaus einfacher ist als das Sammeln von Annotationen für Reinforcement Learning aus menschlichem Feedback (RLHF), stellen wir fest, dass die bloße Eingabe eines solchen Feedbacks in das Modell zu einer Überverallgemeinerung des Feedbacks auf Kontexte führt, in denen es nicht relevant ist. Wir untersuchen das Problem der Einbindung von verbalem Feedback ohne eine solche Überverallgemeinerung, was zu einer neuen Methode führt: Contextualized Critiques with Constrained Preference Optimization (C3PO). C3PO verwendet ein Stück hochrangiges Feedback, um einen kleinen synthetischen Präferenzdatensatz zu generieren, der spezifiziert, wie das Feedback angewendet werden sollte (und wie nicht). Anschließend wird das Modell gemäß der synthetischen Präferenzdaten feinabgestimmt, wobei die Abweichung vom ursprünglichen Modell für Eingabeaufforderungen, auf die das Feedback nicht zutrifft, minimiert wird. Unsere experimentellen Ergebnisse zeigen, dass unser Ansatz verbales Feedback effektiv auf relevante Szenarien anwendet, während bestehende Verhaltensweisen für andere Kontexte erhalten bleiben. Sowohl für menschliches als auch für GPT-4-generiertes hochrangiges Feedback hält sich C3PO vergleichbar gut an das gegebene Feedback wie In-Context-Baselines und reduziert die Überverallgemeinerung um 30 %.
English
The diversity of contexts in which large language models (LLMs) are deployed
requires the ability to modify or customize default model behaviors to
incorporate nuanced requirements and preferences. A convenient interface to
specify such model adjustments is high-level verbal feedback, such as "Don't
use emojis when drafting emails to my boss." However, while writing high-level
feedback is far simpler than collecting annotations for reinforcement learning
from human feedback (RLHF), we find that simply prompting a model with such
feedback leads to overgeneralization of the feedback to contexts where it is
not relevant. We study the problem of incorporating verbal feedback without
such overgeneralization, inspiring a new method Contextualized Critiques with
Constrained Preference Optimization (C3PO). C3PO uses a piece of high-level
feedback to generate a small synthetic preference dataset specifying how the
feedback should (and should not) be applied. It then fine-tunes the model in
accordance with the synthetic preference data while minimizing the divergence
from the original model for prompts where the feedback does not apply. Our
experimental results indicate that our approach effectively applies verbal
feedback to relevant scenarios while preserving existing behaviors for other
contexts. For both human- and GPT-4-generated high-level feedback, C3PO
effectively adheres to the given feedback comparably to in-context baselines
while reducing overgeneralization by 30%.Summary
AI-Generated Summary