Entraînement de la Chaîne de Pensée par Inférence à Variables Latentes

papers.abstract

Les grands modèles de langage (LLMs) résolvent les problèmes de manière plus précise et interprétable lorsqu'ils sont guidés pour détailler la réponse étape par étape à l'aide d'une incitation en « chaîne de pensée » (CoT). On peut également améliorer les performances des LLMs sur une tâche spécifique par un ajustement supervisé, c'est-à-dire en utilisant l'ascension du gradient sur certains paramètres ajustables pour maximiser la log-vraisemblance moyenne des réponses correctes issues d'un ensemble d'entraînement étiqueté. Combiner naïvement la CoT avec l'ajustement supervisé nécessite non seulement la supervision des réponses correctes, mais aussi des raisonnements détaillés menant à ces réponses ; ces raisonnements sont coûteux à produire manuellement. Nous proposons plutôt une stratégie d'ajustement qui cherche à maximiser la log-vraisemblance marginale de générer une réponse correcte en utilisant l'incitation CoT, en approximant la moyenne sur tous les raisonnements possibles. Le défi principal consiste à échantillonner à partir de la distribution a posteriori sur les raisonnements conditionnée à la réponse correcte ; nous le résolvons en utilisant un algorithme simple de maximisation de l'espérance par chaîne de Markov Monte Carlo (MCMC-EM) inspiré du raisonneur autodidacte (STaR), de la méthode mémorisée wake-sleep, de l'ascension de score markovienne et de la divergence contrastive persistante. Cet algorithme intègre également une nouvelle technique de contrôle de variance qui réduit la variance de nos estimations de gradient à zéro à mesure que le modèle s'améliore. En appliquant notre technique à GSM8K et aux tâches de BIG-Bench Hard, nous constatons que cette méthode d'ajustement MCMC-EM améliore généralement la précision du modèle sur des exemples de test plus que STaR ou l'ajustement par incitation avec ou sans CoT.

English

Large language models (LLMs) solve problems more accurately and interpretably when instructed to work out the answer step by step using a ``chain-of-thought'' (CoT) prompt. One can also improve LLMs' performance on a specific task by supervised fine-tuning, i.e., by using gradient ascent on some tunable parameters to maximize the average log-likelihood of correct answers from a labeled training set. Naively combining CoT with supervised tuning requires supervision not just of the correct answers, but also of detailed rationales that lead to those answers; these rationales are expensive to produce by hand. Instead, we propose a fine-tuning strategy that tries to maximize the marginal log-likelihood of generating a correct answer using CoT prompting, approximately averaging over all possible rationales. The core challenge is sampling from the posterior over rationales conditioned on the correct answer; we address it using a simple Markov-chain Monte Carlo (MCMC) expectation-maximization (EM) algorithm inspired by the self-taught reasoner (STaR), memoized wake-sleep, Markovian score climbing, and persistent contrastive divergence. This algorithm also admits a novel control-variate technique that drives the variance of our gradient estimates to zero as the model improves. Applying our technique to GSM8K and the tasks in BIG-Bench Hard, we find that this MCMC-EM fine-tuning technique typically improves the model's accuracy on held-out examples more than STaR or prompt-tuning with or without CoT.

Entraînement de la Chaîne de Pensée par Inférence à Variables Latentes

Training Chain-of-Thought via Latent-Variable Inference

papers.abstract

Support