Entraînement de la Chaîne de Pensée par Inférence à Variables Latentes
Training Chain-of-Thought via Latent-Variable Inference
November 28, 2023
Auteurs: Du Phan, Matthew D. Hoffman, David Dohan, Sholto Douglas, Tuan Anh Le, Aaron Parisi, Pavel Sountsov, Charles Sutton, Sharad Vikram, Rif A. Saurous
cs.AI
Résumé
Les grands modèles de langage (LLMs) résolvent les problèmes de manière plus précise et interprétable lorsqu'ils sont guidés pour détailler la réponse étape par étape à l'aide d'une incitation en « chaîne de pensée » (CoT). On peut également améliorer les performances des LLMs sur une tâche spécifique par un ajustement supervisé, c'est-à-dire en utilisant l'ascension du gradient sur certains paramètres ajustables pour maximiser la log-vraisemblance moyenne des réponses correctes issues d'un ensemble d'entraînement étiqueté. Combiner naïvement la CoT avec l'ajustement supervisé nécessite non seulement la supervision des réponses correctes, mais aussi des raisonnements détaillés menant à ces réponses ; ces raisonnements sont coûteux à produire manuellement. Nous proposons plutôt une stratégie d'ajustement qui cherche à maximiser la log-vraisemblance marginale de générer une réponse correcte en utilisant l'incitation CoT, en approximant la moyenne sur tous les raisonnements possibles. Le défi principal consiste à échantillonner à partir de la distribution a posteriori sur les raisonnements conditionnée à la réponse correcte ; nous le résolvons en utilisant un algorithme simple de maximisation de l'espérance par chaîne de Markov Monte Carlo (MCMC-EM) inspiré du raisonneur autodidacte (STaR), de la méthode mémorisée wake-sleep, de l'ascension de score markovienne et de la divergence contrastive persistante. Cet algorithme intègre également une nouvelle technique de contrôle de variance qui réduit la variance de nos estimations de gradient à zéro à mesure que le modèle s'améliore. En appliquant notre technique à GSM8K et aux tâches de BIG-Bench Hard, nous constatons que cette méthode d'ajustement MCMC-EM améliore généralement la précision du modèle sur des exemples de test plus que STaR ou l'ajustement par incitation avec ou sans CoT.
English
Large language models (LLMs) solve problems more accurately and interpretably
when instructed to work out the answer step by step using a
``chain-of-thought'' (CoT) prompt. One can also improve LLMs' performance on a
specific task by supervised fine-tuning, i.e., by using gradient ascent on some
tunable parameters to maximize the average log-likelihood of correct answers
from a labeled training set. Naively combining CoT with supervised tuning
requires supervision not just of the correct answers, but also of detailed
rationales that lead to those answers; these rationales are expensive to
produce by hand. Instead, we propose a fine-tuning strategy that tries to
maximize the marginal log-likelihood of generating a correct answer
using CoT prompting, approximately averaging over all possible rationales. The
core challenge is sampling from the posterior over rationales conditioned on
the correct answer; we address it using a simple Markov-chain Monte Carlo
(MCMC) expectation-maximization (EM) algorithm inspired by the self-taught
reasoner (STaR), memoized wake-sleep, Markovian score climbing, and persistent
contrastive divergence. This algorithm also admits a novel control-variate
technique that drives the variance of our gradient estimates to zero as the
model improves. Applying our technique to GSM8K and the tasks in BIG-Bench
Hard, we find that this MCMC-EM fine-tuning technique typically improves the
model's accuracy on held-out examples more than STaR or prompt-tuning with or
without CoT.