Aprendizaje por Refuerzo para el Razonamiento en LLMs Pequeños: Lo que Funciona y lo que No
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't
March 20, 2025
Autores: Quy-Anh Dang, Chris Ngo
cs.AI
Resumen
Mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) generalmente depende de recursos computacionales masivos y conjuntos de datos extensos, lo que limita su accesibilidad en entornos con recursos limitados. Nuestro estudio investiga el potencial del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar el razonamiento en LLMs pequeños, centrándonos en un modelo de 1.500 millones de parámetros, DeepSeek-R1-Distill-Qwen-1.5B, bajo restricciones estrictas: entrenamiento en 4 GPUs NVIDIA A40 (48 GB de VRAM cada una) en un plazo de 24 horas. Adaptando el algoritmo de Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) y seleccionando un conjunto de datos compacto y de alta calidad para el razonamiento matemático, realizamos tres experimentos para explorar el comportamiento y el rendimiento del modelo. Nuestros resultados muestran mejoras rápidas en el razonamiento: por ejemplo, la precisión en AMC23 aumentó del 63% al 80%, y AIME24 alcanzó un 46.7%, superando a o1-preview, utilizando solo 7,000 muestras y un costo de entrenamiento de $42, en comparación con miles de dólares para los modelos de referencia. Sin embargo, surgieron desafíos como la inestabilidad en la optimización y limitaciones de longitud con un entrenamiento prolongado. Estos hallazgos resaltan la eficacia del ajuste fino basado en RL para LLMs pequeños, ofreciendo una alternativa rentable a los enfoques a gran escala. Publicamos nuestro código y conjuntos de datos como recursos de código abierto, proporcionando información sobre los compromisos y sentando las bases para LLMs escalables y capaces de razonar en entornos con recursos limitados. Todo está disponible en https://github.com/knoveleng/open-rs.
English
Enhancing the reasoning capabilities of large language models (LLMs)
typically relies on massive computational resources and extensive datasets,
limiting accessibility for resource-constrained settings. Our study
investigates the potential of reinforcement learning (RL) to improve reasoning
in small LLMs, focusing on a 1.5-billion-parameter model,
DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA
A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy
Optimization (GRPO) algorithm and curating a compact, high-quality mathematical
reasoning dataset, we conducted three experiments to explore model behavior and
performance. Our results demonstrate rapid reasoning gains - e.g., AMC23
accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing
o1-preview - using only 7,000 samples and a $42 training cost, compared to
thousands of dollars for baseline models. However, challenges such as
optimization instability and length constraints emerged with prolonged
training. These findings highlight the efficacy of RL-based fine-tuning for
small LLMs, offering a cost-effective alternative to large-scale approaches. We
release our code and datasets as open-source resources, providing insights into
trade-offs and laying a foundation for scalable, reasoning-capable LLMs in
resource-limited environments. All are available at
https://github.com/knoveleng/open-rs.Summary
AI-Generated Summary