Обучение цепочки рассуждений через вывод с использованием скрытых переменных

Аннотация

Крупные языковые модели (LLM) решают задачи более точно и интерпретируемо, когда им дают инструкцию работать над ответом шаг за шагом с использованием подсказки «цепочки рассуждений» (CoT). Производительность LLM на конкретной задаче также можно улучшить с помощью контролируемой тонкой настройки, то есть используя градиентный подъем для некоторых настраиваемых параметров с целью максимизации среднего логарифмического правдоподобия правильных ответов из размеченного обучающего набора. Наивное сочетание CoT с контролируемой настройкой требует не только указания правильных ответов, но и детальных обоснований, ведущих к этим ответам; такие обоснования дорого производить вручную. Вместо этого мы предлагаем стратегию тонкой настройки, которая стремится максимизировать маргинальное логарифмическое правдоподобие генерации правильного ответа с использованием CoT-подсказки, приближенно усредняя по всем возможным обоснованиям. Основная задача заключается в выборке из апостериорного распределения обоснований, обусловленных правильным ответом; мы решаем её с помощью простого алгоритма максимизации ожиданий (EM) на основе метода Монте-Карло с цепями Маркова (MCMC), вдохновленного самообучающимся рассуждателем (STaR), мемоизированным методом wake-sleep, марковским подъемом по оценкам и устойчивым контрастным расхождением. Этот алгоритм также допускает использование новой техники контрольных переменных, которая сводит дисперсию наших оценок градиента к нулю по мере улучшения модели. Применяя наш подход к GSM8K и задачам из BIG-Bench Hard, мы обнаруживаем, что техника тонкой настройки MCMC-EM обычно улучшает точность модели на тестовых примерах больше, чем STaR или настройка подсказок с использованием CoT или без него.

English

Large language models (LLMs) solve problems more accurately and interpretably when instructed to work out the answer step by step using a ``chain-of-thought'' (CoT) prompt. One can also improve LLMs' performance on a specific task by supervised fine-tuning, i.e., by using gradient ascent on some tunable parameters to maximize the average log-likelihood of correct answers from a labeled training set. Naively combining CoT with supervised tuning requires supervision not just of the correct answers, but also of detailed rationales that lead to those answers; these rationales are expensive to produce by hand. Instead, we propose a fine-tuning strategy that tries to maximize the marginal log-likelihood of generating a correct answer using CoT prompting, approximately averaging over all possible rationales. The core challenge is sampling from the posterior over rationales conditioned on the correct answer; we address it using a simple Markov-chain Monte Carlo (MCMC) expectation-maximization (EM) algorithm inspired by the self-taught reasoner (STaR), memoized wake-sleep, Markovian score climbing, and persistent contrastive divergence. This algorithm also admits a novel control-variate technique that drives the variance of our gradient estimates to zero as the model improves. Applying our technique to GSM8K and the tasks in BIG-Bench Hard, we find that this MCMC-EM fine-tuning technique typically improves the model's accuracy on held-out examples more than STaR or prompt-tuning with or without CoT.

Обучение цепочки рассуждений через вывод с использованием скрытых переменных

Training Chain-of-Thought via Latent-Variable Inference

Аннотация

Support