El Autoentrenamiento con Optimización Directa de Preferencias Mejora el Razonamiento en Cadena de Pensamiento.
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
July 25, 2024
Autores: Tianduo Wang, Shichen Li, Wei Lu
cs.AI
Resumen
El entrenamiento efectivo de modelos de lenguaje (LMs) para tareas de razonamiento matemático exige datos de ajuste fino supervisado de alta calidad. Además de obtener anotaciones de expertos humanos, una alternativa común es muestrear de LMs más grandes y potentes. Sin embargo, este enfoque de destilación de conocimiento puede resultar costoso e inestable, especialmente al depender de LMs cerrados y propietarios como GPT-4, cuyos comportamientos suelen ser impredecibles. En este trabajo, demostramos que las habilidades de razonamiento de LMs a pequeña escala pueden mejorarse a través del autoentrenamiento, un proceso en el que los modelos aprenden de sus propias salidas. También mostramos que el autoentrenamiento convencional puede ser mejorado aún más por un algoritmo de aprendizaje de preferencias llamado Optimización Directa de Preferencias (DPO). Al integrar DPO en el autoentrenamiento, aprovechamos los datos de preferencias para guiar a los LMs hacia un razonamiento de cadena de pensamiento más preciso y diverso. Evaluamos nuestro método en diversas tareas de razonamiento matemático utilizando diferentes modelos base. Nuestros experimentos muestran que este enfoque no solo mejora el rendimiento de razonamiento de los LMs, sino que también ofrece una solución más rentable y escalable en comparación con depender de LMs propietarios a gran escala.
English
Effective training of language models (LMs) for mathematical reasoning tasks
demands high-quality supervised fine-tuning data. Besides obtaining annotations
from human experts, a common alternative is sampling from larger and more
powerful LMs. However, this knowledge distillation approach can be costly and
unstable, particularly when relying on closed-source, proprietary LMs like
GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate
that the reasoning abilities of small-scale LMs can be enhanced through
self-training, a process where models learn from their own outputs. We also
show that the conventional self-training can be further augmented by a
preference learning algorithm called Direct Preference Optimization (DPO). By
integrating DPO into self-training, we leverage preference data to guide LMs
towards more accurate and diverse chain-of-thought reasoning. We evaluate our
method across various mathematical reasoning tasks using different base models.
Our experiments show that this approach not only improves LMs' reasoning
performance but also offers a more cost-effective and scalable solution
compared to relying on large proprietary LMs.Summary
AI-Generated Summary