RLVF: Apprendimento dal Feedback Verbale senza Sovrageneralizzazione

Abstract

La diversità di contesti in cui i modelli linguistici di grandi dimensioni (LLM) vengono implementati richiede la capacità di modificare o personalizzare i comportamenti predefiniti del modello per incorporare requisiti e preferenze sfumati. Un'interfaccia comoda per specificare tali adattamenti del modello è il feedback verbale di alto livello, come "Non usare emoji quando redigi email per il mio capo". Tuttavia, sebbene scrivere feedback di alto livello sia molto più semplice rispetto alla raccolta di annotazioni per il reinforcement learning da feedback umano (RLHF), abbiamo osservato che semplicemente fornire al modello tale feedback porta a una sovrageneralizzazione del feedback in contesti in cui non è rilevante. Studiamo il problema di incorporare feedback verbale senza tale sovrageneralizzazione, ispirando un nuovo metodo chiamato Critiche Contestualizzate con Ottimizzazione Vincolata delle Preferenze (C3PO). C3PO utilizza un feedback di alto livello per generare un piccolo dataset sintetico di preferenze che specifica come il feedback dovrebbe (e non dovrebbe) essere applicato. Successivamente, ottimizza il modello in base ai dati sintetici di preferenza, minimizzando la divergenza dal modello originale per prompt in cui il feedback non si applica. I nostri risultati sperimentali indicano che il nostro approccio applica efficacemente il feedback verbale agli scenari rilevanti preservando i comportamenti esistenti per altri contesti. Sia per feedback di alto livello generati da esseri umani che da GPT-4, C3PO aderisce efficacemente al feedback fornito in modo comparabile ai baseline in-context, riducendo la sovrageneralizzazione del 30%.

English

The diversity of contexts in which large language models (LLMs) are deployed requires the ability to modify or customize default model behaviors to incorporate nuanced requirements and preferences. A convenient interface to specify such model adjustments is high-level verbal feedback, such as "Don't use emojis when drafting emails to my boss." However, while writing high-level feedback is far simpler than collecting annotations for reinforcement learning from human feedback (RLHF), we find that simply prompting a model with such feedback leads to overgeneralization of the feedback to contexts where it is not relevant. We study the problem of incorporating verbal feedback without such overgeneralization, inspiring a new method Contextualized Critiques with Constrained Preference Optimization (C3PO). C3PO uses a piece of high-level feedback to generate a small synthetic preference dataset specifying how the feedback should (and should not) be applied. It then fine-tunes the model in accordance with the synthetic preference data while minimizing the divergence from the original model for prompts where the feedback does not apply. Our experimental results indicate that our approach effectively applies verbal feedback to relevant scenarios while preserving existing behaviors for other contexts. For both human- and GPT-4-generated high-level feedback, C3PO effectively adheres to the given feedback comparably to in-context baselines while reducing overgeneralization by 30%.

RLVF: Apprendimento dal Feedback Verbale senza Sovrageneralizzazione

RLVF: Learning from Verbal Feedback without Overgeneralization

Abstract

Support