Самообучение с оптимизацией прямых предпочтений улучшает цепочку логического мышления.
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
July 25, 2024
Авторы: Tianduo Wang, Shichen Li, Wei Lu
cs.AI
Аннотация
Эффективное обучение языковых моделей (LM) для математических задач требует высококачественных данных для надзорного дообучения. Помимо получения аннотаций от человеческих экспертов, распространенной альтернативой является выборка из более крупных и мощных языковых моделей. Однако этот подход дистилляции знаний может быть дорогостоящим и нестабильным, особенно при использовании закрытых исходных кодов, собственных языковых моделей, таких как GPT-4, поведение которых часто непредсказуемо. В данной работе мы демонстрируем, что способности к рассуждению масштабных языковых моделей можно улучшить через самообучение, процесс, при котором модели учатся на основе своих собственных результатов. Мы также показываем, что традиционное самообучение может быть дополнено алгоритмом обучения предпочтений под названием Прямая Оптимизация Предпочтений (DPO). Интегрируя DPO в самообучение, мы используем данные предпочтений для направления языковых моделей к более точному и разнообразному рассуждению по цепочке. Мы оцениваем наш метод на различных математических задачах рассуждения с использованием различных базовых моделей. Наши эксперименты показывают, что этот подход не только улучшает производительность рассуждения языковых моделей, но также предлагает более эффективное с точки зрения затрат и масштабируемое решение по сравнению с использованием крупных собственных языковых моделей.
English
Effective training of language models (LMs) for mathematical reasoning tasks
demands high-quality supervised fine-tuning data. Besides obtaining annotations
from human experts, a common alternative is sampling from larger and more
powerful LMs. However, this knowledge distillation approach can be costly and
unstable, particularly when relying on closed-source, proprietary LMs like
GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate
that the reasoning abilities of small-scale LMs can be enhanced through
self-training, a process where models learn from their own outputs. We also
show that the conventional self-training can be further augmented by a
preference learning algorithm called Direct Preference Optimization (DPO). By
integrating DPO into self-training, we leverage preference data to guide LMs
towards more accurate and diverse chain-of-thought reasoning. We evaluate our
method across various mathematical reasoning tasks using different base models.
Our experiments show that this approach not only improves LMs' reasoning
performance but also offers a more cost-effective and scalable solution
compared to relying on large proprietary LMs.Summary
AI-Generated Summary