ChatPaper.aiChatPaper

BOND: Allineamento di LLM tramite distillazione Best-of-N

BOND: Aligning LLMs with Best-of-N Distillation

July 19, 2024
Autori: Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Nino Vieillard, Alexandre Ramé, Bobak Shariari, Sarah Perrin, Abe Friesen, Geoffrey Cideron, Sertan Girgin, Piotr Stanczyk, Andrea Michi, Danila Sinopalnikov, Sabela Ramos, Amélie Héliou, Aliaksei Severyn, Matt Hoffman, Nikola Momchev, Olivier Bachem
cs.AI

Abstract

L'apprendimento per rinforzo da feedback umano (RLHF) è un fattore chiave per la qualità e la sicurezza nei modelli linguistici all'avanguardia. Tuttavia, una strategia sorprendentemente semplice e potente al momento dell'inferenza è il campionamento Best-of-N, che seleziona la migliore generazione tra N candidati. In questo articolo, proponiamo Best-of-N Distillation (BOND), un nuovo algoritmo RLHF che mira a emulare Best-of-N senza il suo significativo sovraccarico computazionale al momento dell'inferenza. Nello specifico, BOND è un algoritmo di corrispondenza delle distribuzioni che costringe la distribuzione delle generazioni dalla politica ad avvicinarsi alla distribuzione Best-of-N. Utilizziamo la divergenza di Jeffreys (una combinazione lineare di KL in avanti e all'indietro) per bilanciare il comportamento di copertura e ricerca delle modalità, e deriviamo una formulazione iterativa che utilizza un'ancora mobile per l'efficienza. Dimostriamo l'efficacia del nostro approccio e diverse scelte progettuali attraverso esperimenti sulla sintesi astrattiva e sui modelli Gemma. L'allineamento delle politiche Gemma con BOND supera altri algoritmi RLHF migliorando i risultati su diversi benchmark.
English
Reinforcement learning from human feedback (RLHF) is a key driver of quality and safety in state-of-the-art large language models. Yet, a surprisingly simple and strong inference-time strategy is Best-of-N sampling that selects the best generation among N candidates. In this paper, we propose Best-of-N Distillation (BOND), a novel RLHF algorithm that seeks to emulate Best-of-N but without its significant computational overhead at inference time. Specifically, BOND is a distribution matching algorithm that forces the distribution of generations from the policy to get closer to the Best-of-N distribution. We use the Jeffreys divergence (a linear combination of forward and backward KL) to balance between mode-covering and mode-seeking behavior, and derive an iterative formulation that utilizes a moving anchor for efficiency. We demonstrate the effectiveness of our approach and several design choices through experiments on abstractive summarization and Gemma models. Aligning Gemma policies with BOND outperforms other RLHF algorithms by improving results on several benchmarks.
PDF203November 28, 2024