Aprendizaje por Refuerzo para el Razonamiento en LLMs Pequeños: Lo que Funciona y lo que No

Resumen

Mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) generalmente depende de recursos computacionales masivos y conjuntos de datos extensos, lo que limita su accesibilidad en entornos con recursos limitados. Nuestro estudio investiga el potencial del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar el razonamiento en LLMs pequeños, centrándonos en un modelo de 1.500 millones de parámetros, DeepSeek-R1-Distill-Qwen-1.5B, bajo restricciones estrictas: entrenamiento en 4 GPUs NVIDIA A40 (48 GB de VRAM cada una) en un plazo de 24 horas. Adaptando el algoritmo de Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) y seleccionando un conjunto de datos compacto y de alta calidad para el razonamiento matemático, realizamos tres experimentos para explorar el comportamiento y el rendimiento del modelo. Nuestros resultados muestran mejoras rápidas en el razonamiento: por ejemplo, la precisión en AMC23 aumentó del 63% al 80%, y AIME24 alcanzó un 46.7%, superando a o1-preview, utilizando solo 7,000 muestras y un costo de entrenamiento de $42, en comparación con miles de dólares para los modelos de referencia. Sin embargo, surgieron desafíos como la inestabilidad en la optimización y limitaciones de longitud con un entrenamiento prolongado. Estos hallazgos resaltan la eficacia del ajuste fino basado en RL para LLMs pequeños, ofreciendo una alternativa rentable a los enfoques a gran escala. Publicamos nuestro código y conjuntos de datos como recursos de código abierto, proporcionando información sobre los compromisos y sentando las bases para LLMs escalables y capaces de razonar en entornos con recursos limitados. Todo está disponible en https://github.com/knoveleng/open-rs.

English

Enhancing the reasoning capabilities of large language models (LLMs) typically relies on massive computational resources and extensive datasets, limiting accessibility for resource-constrained settings. Our study investigates the potential of reinforcement learning (RL) to improve reasoning in small LLMs, focusing on a 1.5-billion-parameter model, DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy Optimization (GRPO) algorithm and curating a compact, high-quality mathematical reasoning dataset, we conducted three experiments to explore model behavior and performance. Our results demonstrate rapid reasoning gains - e.g., AMC23 accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing o1-preview - using only 7,000 samples and a $42 training cost, compared to thousands of dollars for baseline models. However, challenges such as optimization instability and length constraints emerged with prolonged training. These findings highlight the efficacy of RL-based fine-tuning for small LLMs, offering a cost-effective alternative to large-scale approaches. We release our code and datasets as open-source resources, providing insights into trade-offs and laying a foundation for scalable, reasoning-capable LLMs in resource-limited environments. All are available at https://github.com/knoveleng/open-rs.

Aprendizaje por Refuerzo para el Razonamiento en LLMs Pequeños: Lo que Funciona y lo que No

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Resumen

Support