Оптимизация предпочтений методом итеративного рассуждения
Iterative Reasoning Preference Optimization
April 30, 2024
Авторы: Richard Yuanzhe Pang, Weizhe Yuan, Kyunghyun Cho, He He, Sainbayar Sukhbaatar, Jason Weston
cs.AI
Аннотация
Методы итеративной оптимизации предпочтений недавно показали хорошие результаты для задач общего настройки инструкций, но обычно мало улучшают задачи рассуждения (Yuan et al., 2024, Chen et al., 2024). В данной работе мы разрабатываем итеративный подход, который оптимизирует предпочтения между конкурирующими кандидатами Цепочки Мыслей (CoT), оптимизируя победные и проигрышные шаги рассуждения, приводящие к правильному ответу. Мы обучаемся с использованием модифицированной функции потерь DPO (Rafailov et al., 2023) с дополнительным отрицательным логарифмическим членом, который мы считаем критически важным. Мы показываем улучшение рассуждения на протяжении повторяющихся итераций этой схемы. Несмотря на то, что мы полагаемся только на примеры в обучающем наборе, наш подход приводит к увеличению точности для Llama-2-70B-Chat с 55.6% до 81.6% на GSM8K (и 88.7% при большинстве голосов из 32 образцов), с 12.5% до 20.8% на MATH и с 77.8% до 86.7% на ARC-Challenge, что превосходит другие модели на основе Llama-2, не полагающиеся на дополнительные источники данных.
English
Iterative preference optimization methods have recently been shown to perform
well for general instruction tuning tasks, but typically make little
improvement on reasoning tasks (Yuan et al., 2024, Chen et al., 2024). In this
work we develop an iterative approach that optimizes the preference between
competing generated Chain-of-Thought (CoT) candidates by optimizing for winning
vs. losing reasoning steps that lead to the correct answer. We train using a
modified DPO loss (Rafailov et al., 2023) with an additional negative
log-likelihood term, which we find to be crucial. We show reasoning improves
across repeated iterations of this scheme. While only relying on examples in
the training set, our approach results in increasing accuracy for
Llama-2-70B-Chat from 55.6% to 81.6% on GSM8K (and 88.7% with majority voting
out of 32 samples), from 12.5% to 20.8% on MATH, and from 77.8% to 86.7% on
ARC-Challenge, which outperforms other Llama-2-based models not relying on
additionally sourced datasets.Summary
AI-Generated Summary