RLCD: Apprendimento per Rinforzo da Distillazione Contrastiva per l'Allineamento dei Modelli Linguistici

Abstract

Proponiamo il Reinforcement Learning from Contrast Distillation (RLCD), un metodo per allineare i modelli linguistici a seguire principi di linguaggio naturale senza utilizzare feedback umano. RLCD addestra un modello di preferenza utilizzando coppie di preferenze simulate che contengono sia un esempio di alta qualità che uno di bassa qualità, generati mediante prompt contrastanti positivi e negativi. Il modello di preferenza viene poi utilizzato per migliorare un modello linguistico di base non allineato attraverso il reinforcement learning. Empiricamente, RLCD supera i benchmark di RLAIF (Bai et al., 2022b) e della distillazione contestuale (Huang et al., 2022) in tre diversi compiti di allineamento—innocuità, utilità e generazione di schemi narrativi—e su entrambe le scale di modelli da 7B e 30B per la simulazione di dati di preferenza.

English

We propose Reinforcement Learning from Contrast Distillation (RLCD), a method for aligning language models to follow natural language principles without using human feedback. RLCD trains a preference model using simulated preference pairs that contain both a high-quality and low-quality example, generated using contrasting positive and negative prompts. The preference model is then used to improve a base unaligned language model via reinforcement learning. Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context distillation (Huang et al., 2022) baselines across three diverse alignment tasks--harmlessness, helpfulness, and story outline generation--and on both 7B and 30B model scales for preference data simulation.

RLCD: Apprendimento per Rinforzo da Distillazione Contrastiva per l'Allineamento dei Modelli Linguistici

RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment

Abstract

Support