RLVF: Apprendimento dal Feedback Verbale senza Sovrageneralizzazione
RLVF: Learning from Verbal Feedback without Overgeneralization
February 16, 2024
Autori: Moritz Stephan, Alexander Khazatsky, Eric Mitchell, Annie S Chen, Sheryl Hsu, Archit Sharma, Chelsea Finn
cs.AI
Abstract
La diversità di contesti in cui i modelli linguistici di grandi dimensioni (LLM) vengono implementati richiede la capacità di modificare o personalizzare i comportamenti predefiniti del modello per incorporare requisiti e preferenze sfumati. Un'interfaccia comoda per specificare tali adattamenti del modello è il feedback verbale di alto livello, come "Non usare emoji quando redigi email per il mio capo". Tuttavia, sebbene scrivere feedback di alto livello sia molto più semplice rispetto alla raccolta di annotazioni per il reinforcement learning da feedback umano (RLHF), abbiamo osservato che semplicemente fornire al modello tale feedback porta a una sovrageneralizzazione del feedback in contesti in cui non è rilevante. Studiamo il problema di incorporare feedback verbale senza tale sovrageneralizzazione, ispirando un nuovo metodo chiamato Critiche Contestualizzate con Ottimizzazione Vincolata delle Preferenze (C3PO). C3PO utilizza un feedback di alto livello per generare un piccolo dataset sintetico di preferenze che specifica come il feedback dovrebbe (e non dovrebbe) essere applicato. Successivamente, ottimizza il modello in base ai dati sintetici di preferenza, minimizzando la divergenza dal modello originale per prompt in cui il feedback non si applica. I nostri risultati sperimentali indicano che il nostro approccio applica efficacemente il feedback verbale agli scenari rilevanti preservando i comportamenti esistenti per altri contesti. Sia per feedback di alto livello generati da esseri umani che da GPT-4, C3PO aderisce efficacemente al feedback fornito in modo comparabile ai baseline in-context, riducendo la sovrageneralizzazione del 30%.
English
The diversity of contexts in which large language models (LLMs) are deployed
requires the ability to modify or customize default model behaviors to
incorporate nuanced requirements and preferences. A convenient interface to
specify such model adjustments is high-level verbal feedback, such as "Don't
use emojis when drafting emails to my boss." However, while writing high-level
feedback is far simpler than collecting annotations for reinforcement learning
from human feedback (RLHF), we find that simply prompting a model with such
feedback leads to overgeneralization of the feedback to contexts where it is
not relevant. We study the problem of incorporating verbal feedback without
such overgeneralization, inspiring a new method Contextualized Critiques with
Constrained Preference Optimization (C3PO). C3PO uses a piece of high-level
feedback to generate a small synthetic preference dataset specifying how the
feedback should (and should not) be applied. It then fine-tunes the model in
accordance with the synthetic preference data while minimizing the divergence
from the original model for prompts where the feedback does not apply. Our
experimental results indicate that our approach effectively applies verbal
feedback to relevant scenarios while preserving existing behaviors for other
contexts. For both human- and GPT-4-generated high-level feedback, C3PO
effectively adheres to the given feedback comparably to in-context baselines
while reducing overgeneralization by 30%.