ChatPaper.aiChatPaper

Обучение цепочки рассуждений через вывод с использованием скрытых переменных

Training Chain-of-Thought via Latent-Variable Inference

November 28, 2023
Авторы: Du Phan, Matthew D. Hoffman, David Dohan, Sholto Douglas, Tuan Anh Le, Aaron Parisi, Pavel Sountsov, Charles Sutton, Sharad Vikram, Rif A. Saurous
cs.AI

Аннотация

Крупные языковые модели (LLM) решают задачи более точно и интерпретируемо, когда им дают инструкцию работать над ответом шаг за шагом с использованием подсказки «цепочки рассуждений» (CoT). Производительность LLM на конкретной задаче также можно улучшить с помощью контролируемой тонкой настройки, то есть используя градиентный подъем для некоторых настраиваемых параметров с целью максимизации среднего логарифмического правдоподобия правильных ответов из размеченного обучающего набора. Наивное сочетание CoT с контролируемой настройкой требует не только указания правильных ответов, но и детальных обоснований, ведущих к этим ответам; такие обоснования дорого производить вручную. Вместо этого мы предлагаем стратегию тонкой настройки, которая стремится максимизировать маргинальное логарифмическое правдоподобие генерации правильного ответа с использованием CoT-подсказки, приближенно усредняя по всем возможным обоснованиям. Основная задача заключается в выборке из апостериорного распределения обоснований, обусловленных правильным ответом; мы решаем её с помощью простого алгоритма максимизации ожиданий (EM) на основе метода Монте-Карло с цепями Маркова (MCMC), вдохновленного самообучающимся рассуждателем (STaR), мемоизированным методом wake-sleep, марковским подъемом по оценкам и устойчивым контрастным расхождением. Этот алгоритм также допускает использование новой техники контрольных переменных, которая сводит дисперсию наших оценок градиента к нулю по мере улучшения модели. Применяя наш подход к GSM8K и задачам из BIG-Bench Hard, мы обнаруживаем, что техника тонкой настройки MCMC-EM обычно улучшает точность модели на тестовых примерах больше, чем STaR или настройка подсказок с использованием CoT или без него.
English
Large language models (LLMs) solve problems more accurately and interpretably when instructed to work out the answer step by step using a ``chain-of-thought'' (CoT) prompt. One can also improve LLMs' performance on a specific task by supervised fine-tuning, i.e., by using gradient ascent on some tunable parameters to maximize the average log-likelihood of correct answers from a labeled training set. Naively combining CoT with supervised tuning requires supervision not just of the correct answers, but also of detailed rationales that lead to those answers; these rationales are expensive to produce by hand. Instead, we propose a fine-tuning strategy that tries to maximize the marginal log-likelihood of generating a correct answer using CoT prompting, approximately averaging over all possible rationales. The core challenge is sampling from the posterior over rationales conditioned on the correct answer; we address it using a simple Markov-chain Monte Carlo (MCMC) expectation-maximization (EM) algorithm inspired by the self-taught reasoner (STaR), memoized wake-sleep, Markovian score climbing, and persistent contrastive divergence. This algorithm also admits a novel control-variate technique that drives the variance of our gradient estimates to zero as the model improves. Applying our technique to GSM8K and the tasks in BIG-Bench Hard, we find that this MCMC-EM fine-tuning technique typically improves the model's accuracy on held-out examples more than STaR or prompt-tuning with or without CoT.
PDF110December 15, 2024