Tina: Modelos de Razonamiento Compactos mediante LoRA
Tina: Tiny Reasoning Models via LoRA
April 22, 2025
Autores: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger
cs.AI
Resumen
¿Cómo se pueden lograr capacidades de razonamiento sólidas en modelos de lenguaje de manera rentable? Motivados por esta pregunta fundamental, presentamos Tina, una familia de modelos de razonamiento pequeños logrados con alta eficiencia de costos. Notablemente, Tina demuestra que se puede desarrollar un rendimiento sustancial de razonamiento utilizando solo recursos mínimos, aplicando actualizaciones eficientes en parámetros durante el aprendizaje por refuerzo (RL), utilizando adaptación de bajo rango (LoRA), a un modelo base ya pequeño de 1.5B parámetros. Este enfoque minimalista produce modelos que logran un rendimiento de razonamiento competitivo y, en ocasiones, superior a los modelos SOTA de razonamiento basados en RL construidos sobre el mismo modelo base. Crucialmente, esto se logra con una fracción mínima del costo computacional de posentrenamiento empleado por los modelos SOTA existentes. De hecho, el mejor modelo de Tina logra un aumento de más del 20% en el rendimiento de razonamiento y una precisión del 43.33% en Pass@1 en AIME24, con un costo de posentrenamiento y evaluación de solo \$9 USD (es decir, una reducción estimada de 260x en costos). Nuestro trabajo revela la sorprendente efectividad del razonamiento eficiente mediante RL a través de LoRA. Validamos esto en múltiples conjuntos de datos de razonamiento de código abierto y varios ajustes de ablación comenzando con un único conjunto fijo de hiperparámetros. Además, planteamos la hipótesis de que esta efectividad y eficiencia provienen de la capacidad de LoRA para adaptar rápidamente el modelo al formato estructural de razonamiento recompensado por RL, mientras se preserva en gran medida el conocimiento subyacente del modelo base. En servicio de la accesibilidad y la investigación abierta, liberamos completamente todo el código, registros de entrenamiento y pesos y puntos de control del modelo.
English
How cost-effectively can strong reasoning abilities be achieved in language
models? Driven by this fundamental question, we present Tina, a family of tiny
reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates
that substantial reasoning performance can be developed using only minimal
resources, by applying parameter-efficient updates during reinforcement
learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B
parameter base model. This minimalist approach produces models that achieve
reasoning performance which is competitive with, and sometimes surpasses, SOTA
RL reasoning models built upon the same base model. Crucially, this is achieved
at a tiny fraction of the computational post-training cost employed by existing
SOTA models. In fact, the best Tina model achieves a >20\% reasoning
performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD
post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our
work reveals the surprising effectiveness of efficient RL reasoning via LoRA.
We validate this across multiple open-source reasoning datasets and various
ablation settings starting with a single, fixed set of hyperparameters.
Furthermore, we hypothesize that this effectiveness and efficiency stem from
LoRA rapidly adapting the model to the structural format of reasoning rewarded
by RL, while largely preserving the base model's underlying knowledge. In
service of accessibility and open research, we fully open-source all code,
training logs, and model weights \& checkpoints.Summary
AI-Generated Summary