BOND: Ausrichtung von LLMs mit Best-of-N-Destillation
BOND: Aligning LLMs with Best-of-N Distillation
July 19, 2024
Autoren: Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Nino Vieillard, Alexandre Ramé, Bobak Shariari, Sarah Perrin, Abe Friesen, Geoffrey Cideron, Sertan Girgin, Piotr Stanczyk, Andrea Michi, Danila Sinopalnikov, Sabela Ramos, Amélie Héliou, Aliaksei Severyn, Matt Hoffman, Nikola Momchev, Olivier Bachem
cs.AI
Zusammenfassung
Das Lernen durch Verstärkung aus menschlichem Feedback (RLHF) ist ein Schlüsselfaktor für Qualität und Sicherheit in hochmodernen großen Sprachmodellen. Dennoch ist eine überraschend einfache und starke Strategie zur Inferenzzeit die Best-of-N-Auswahl, die die beste Generierung aus N Kandidaten auswählt. In diesem Paper schlagen wir Best-of-N-Destillation (BOND) vor, einen neuartigen RLHF-Algorithmus, der versucht, Best-of-N nachzuahmen, jedoch ohne dessen erheblichen Rechenaufwand zur Inferenzzeit. Konkret handelt es sich bei BOND um einen Verteilungsangleichungsalgorithmus, der die Verteilung der Generierungen der Richtlinie dazu zwingt, der Best-of-N-Verteilung näher zu kommen. Wir verwenden die Jeffreys-Divergenz (eine lineare Kombination aus vorwärts und rückwärts KL), um zwischen Modusabdeckung und Modussuchverhalten zu balancieren, und leiten eine iterative Formulierung ab, die einen beweglichen Anker für Effizienz nutzt. Wir zeigen die Wirksamkeit unseres Ansatzes und mehrerer Designentscheidungen durch Experimente zur abstrakten Zusammenfassung und Gemma-Modelle auf. Die Ausrichtung der Gemma-Richtlinien mit BOND übertrifft andere RLHF-Algorithmen, indem sie die Ergebnisse auf mehreren Benchmarks verbessert.
English
Reinforcement learning from human feedback (RLHF) is a key driver of quality
and safety in state-of-the-art large language models. Yet, a surprisingly
simple and strong inference-time strategy is Best-of-N sampling that selects
the best generation among N candidates. In this paper, we propose Best-of-N
Distillation (BOND), a novel RLHF algorithm that seeks to emulate Best-of-N but
without its significant computational overhead at inference time. Specifically,
BOND is a distribution matching algorithm that forces the distribution of
generations from the policy to get closer to the Best-of-N distribution. We use
the Jeffreys divergence (a linear combination of forward and backward KL) to
balance between mode-covering and mode-seeking behavior, and derive an
iterative formulation that utilizes a moving anchor for efficiency. We
demonstrate the effectiveness of our approach and several design choices
through experiments on abstractive summarization and Gemma models. Aligning
Gemma policies with BOND outperforms other RLHF algorithms by improving results
on several benchmarks.Summary
AI-Generated Summary