La paciencia es la clave para el razonamiento de modelos de lenguaje grandes.

Patience Is The Key to Large Language Model Reasoning

November 20, 2024
Autores: Yijiong Yu
cs.AI

Resumen

Los avances recientes en el campo de los modelos de lenguaje grandes, particularmente a través del enfoque de Cadena de Pensamiento (CoT), han demostrado mejoras significativas en la resolución de problemas complejos. Sin embargo, los modelos existentes tienden a sacrificar el razonamiento detallado por la brevedad debido a las preferencias del usuario, o requieren datos de entrenamiento extensos y costosos para aprender habilidades de razonamiento complicadas, limitando su potencial en la resolución de tareas complejas. Para cerrar esta brecha, siguiendo el concepto de escalar en tiempo de prueba, proponemos un método simple al alentar a los modelos a adoptar un estilo de razonamiento más paciente sin necesidad de introducir nuevos conocimientos o habilidades. Para emplear un enfoque de optimización de preferencias, generamos procesos de razonamiento detallados como ejemplos positivos y respuestas simples como ejemplos negativos, entrenando así al modelo para favorecer la minuciosidad en sus respuestas. Nuestros resultados demuestran un aumento de rendimiento de hasta un 6.7% en GSM8k con entrenamiento solo en un conjunto de datos liviano.
English
Recent advancements in the field of large language models, particularly through the Chain of Thought (CoT) approach, have demonstrated significant improvements in solving complex problems. However, existing models either tend to sacrifice detailed reasoning for brevity due to user preferences, or require extensive and expensive training data to learn complicated reasoning ability, limiting their potential in solving complex tasks. To bridge this gap, following the concept of scaling test-time, we propose a simple method by encouraging models to adopt a more patient reasoning style without the need of introducing new knowledge or skills. To employ a preference optimization approach, we generate detailed reasoning processes as positive examples and simple answers as negative examples, thereby training the model to favor thoroughness in its responses. Our results demonstrate a performance increase of up to 6.7% on GSM8k with training just on a lightweight dataset.

Summary

AI-Generated Summary

PDF73November 22, 2024