Optimización Iterativa de Preferencias de Razonamiento
Iterative Reasoning Preference Optimization
April 30, 2024
Autores: Richard Yuanzhe Pang, Weizhe Yuan, Kyunghyun Cho, He He, Sainbayar Sukhbaatar, Jason Weston
cs.AI
Resumen
Los métodos de optimización iterativa de preferencias han demostrado recientemente un buen desempeño en tareas generales de ajuste de instrucciones, pero suelen mostrar pocas mejoras en tareas de razonamiento (Yuan et al., 2024, Chen et al., 2024). En este trabajo, desarrollamos un enfoque iterativo que optimiza la preferencia entre candidatos generados de Cadenas de Pensamiento (CoT, por sus siglas en inglés) compitiendo, optimizando los pasos de razonamiento ganadores frente a los perdedores que conducen a la respuesta correcta. Entrenamos utilizando una función de pérdida DPO modificada (Rafailov et al., 2023) con un término adicional de log-verosimilitud negativa, que consideramos crucial. Demostramos que el razonamiento mejora a través de iteraciones repetidas de este esquema. Aunque solo nos basamos en ejemplos del conjunto de entrenamiento, nuestro enfoque aumenta la precisión de Llama-2-70B-Chat del 55.6% al 81.6% en GSM8K (y 88.7% con votación mayoritaria de 32 muestras), del 12.5% al 20.8% en MATH, y del 77.8% al 86.7% en ARC-Challenge, superando a otros modelos basados en Llama-2 que no dependen de conjuntos de datos adicionales.
English
Iterative preference optimization methods have recently been shown to perform
well for general instruction tuning tasks, but typically make little
improvement on reasoning tasks (Yuan et al., 2024, Chen et al., 2024). In this
work we develop an iterative approach that optimizes the preference between
competing generated Chain-of-Thought (CoT) candidates by optimizing for winning
vs. losing reasoning steps that lead to the correct answer. We train using a
modified DPO loss (Rafailov et al., 2023) with an additional negative
log-likelihood term, which we find to be crucial. We show reasoning improves
across repeated iterations of this scheme. While only relying on examples in
the training set, our approach results in increasing accuracy for
Llama-2-70B-Chat from 55.6% to 81.6% on GSM8K (and 88.7% with majority voting
out of 32 samples), from 12.5% to 20.8% on MATH, and from 77.8% to 86.7% on
ARC-Challenge, which outperforms other Llama-2-based models not relying on
additionally sourced datasets.Summary
AI-Generated Summary