Training von Chain-of-Thought durch latente Variablen-Inferenz
Training Chain-of-Thought via Latent-Variable Inference
November 28, 2023
Autoren: Du Phan, Matthew D. Hoffman, David Dohan, Sholto Douglas, Tuan Anh Le, Aaron Parisi, Pavel Sountsov, Charles Sutton, Sharad Vikram, Rif A. Saurous
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) lösen Probleme genauer und interpretierbarer, wenn sie angewiesen werden, die Antwort Schritt für Schritt mithilfe eines „Chain-of-Thought“ (CoT)-Prompts zu erarbeiten. Die Leistung von LLMs bei einer bestimmten Aufgabe kann auch durch überwachtes Feinabstimmen verbessert werden, d.h. durch die Verwendung von Gradientenanstieg auf einigen anpassbaren Parametern, um die durchschnittliche Log-Wahrscheinlichkeit korrekter Antworten aus einem gelabelten Trainingsdatensatz zu maximieren. Die naive Kombination von CoT mit überwachtem Feinabstimmen erfordert nicht nur die Überwachung der korrekten Antworten, sondern auch detaillierter Begründungen, die zu diesen Antworten führen; diese Begründungen sind jedoch aufwendig manuell zu erstellen. Stattdessen schlagen wir eine Feinabstimmungsstrategie vor, die versucht, die marginale Log-Wahrscheinlichkeit der Generierung einer korrekten Antwort mithilfe von CoT-Prompting zu maximieren, wobei annähernd über alle möglichen Begründungen gemittelt wird. Die zentrale Herausforderung besteht darin, aus der Posterior-Verteilung über die Begründungen, bedingt auf die korrekte Antwort, zu sampeln; wir lösen dies mithilfe eines einfachen Markov-Chain-Monte-Carlo (MCMC)-Expectation-Maximization (EM)-Algorithmus, der vom selbstlernenden Denker (STaR), memoized wake-sleep, Markovian score climbing und persistent contrastive divergence inspiriert ist. Dieser Algorithmus ermöglicht auch eine neuartige Kontrollvariablen-Technik, die die Varianz unserer Gradientenschätzungen auf Null reduziert, wenn sich das Modell verbessert. Durch die Anwendung unserer Technik auf GSM8K und die Aufgaben in BIG-Bench Hard stellen wir fest, dass diese MCMC-EM-Feinabstimmungstechnik die Genauigkeit des Modells bei zurückgehaltenen Beispielen typischerweise stärker verbessert als STaR oder Prompt-Tuning mit oder ohne CoT.
English
Large language models (LLMs) solve problems more accurately and interpretably
when instructed to work out the answer step by step using a
``chain-of-thought'' (CoT) prompt. One can also improve LLMs' performance on a
specific task by supervised fine-tuning, i.e., by using gradient ascent on some
tunable parameters to maximize the average log-likelihood of correct answers
from a labeled training set. Naively combining CoT with supervised tuning
requires supervision not just of the correct answers, but also of detailed
rationales that lead to those answers; these rationales are expensive to
produce by hand. Instead, we propose a fine-tuning strategy that tries to
maximize the marginal log-likelihood of generating a correct answer
using CoT prompting, approximately averaging over all possible rationales. The
core challenge is sampling from the posterior over rationales conditioned on
the correct answer; we address it using a simple Markov-chain Monte Carlo
(MCMC) expectation-maximization (EM) algorithm inspired by the self-taught
reasoner (STaR), memoized wake-sleep, Markovian score climbing, and persistent
contrastive divergence. This algorithm also admits a novel control-variate
technique that drives the variance of our gradient estimates to zero as the
model improves. Applying our technique to GSM8K and the tasks in BIG-Bench
Hard, we find that this MCMC-EM fine-tuning technique typically improves the
model's accuracy on held-out examples more than STaR or prompt-tuning with or
without CoT.