Tina: Modelos de Razonamiento Compactos mediante LoRA

Resumen

¿Cómo se pueden lograr capacidades de razonamiento sólidas en modelos de lenguaje de manera rentable? Motivados por esta pregunta fundamental, presentamos Tina, una familia de modelos de razonamiento pequeños logrados con alta eficiencia de costos. Notablemente, Tina demuestra que se puede desarrollar un rendimiento sustancial de razonamiento utilizando solo recursos mínimos, aplicando actualizaciones eficientes en parámetros durante el aprendizaje por refuerzo (RL), utilizando adaptación de bajo rango (LoRA), a un modelo base ya pequeño de 1.5B parámetros. Este enfoque minimalista produce modelos que logran un rendimiento de razonamiento competitivo y, en ocasiones, superior a los modelos SOTA de razonamiento basados en RL construidos sobre el mismo modelo base. Crucialmente, esto se logra con una fracción mínima del costo computacional de posentrenamiento empleado por los modelos SOTA existentes. De hecho, el mejor modelo de Tina logra un aumento de más del 20% en el rendimiento de razonamiento y una precisión del 43.33% en Pass@1 en AIME24, con un costo de posentrenamiento y evaluación de solo \$9 USD (es decir, una reducción estimada de 260x en costos). Nuestro trabajo revela la sorprendente efectividad del razonamiento eficiente mediante RL a través de LoRA. Validamos esto en múltiples conjuntos de datos de razonamiento de código abierto y varios ajustes de ablación comenzando con un único conjunto fijo de hiperparámetros. Además, planteamos la hipótesis de que esta efectividad y eficiencia provienen de la capacidad de LoRA para adaptar rápidamente el modelo al formato estructural de razonamiento recompensado por RL, mientras se preserva en gran medida el conocimiento subyacente del modelo base. En servicio de la accesibilidad y la investigación abierta, liberamos completamente todo el código, registros de entrenamiento y pesos y puntos de control del modelo.

English

How cost-effectively can strong reasoning abilities be achieved in language models? Driven by this fundamental question, we present Tina, a family of tiny reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates that substantial reasoning performance can be developed using only minimal resources, by applying parameter-efficient updates during reinforcement learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B parameter base model. This minimalist approach produces models that achieve reasoning performance which is competitive with, and sometimes surpasses, SOTA RL reasoning models built upon the same base model. Crucially, this is achieved at a tiny fraction of the computational post-training cost employed by existing SOTA models. In fact, the best Tina model achieves a >20\% reasoning performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our work reveals the surprising effectiveness of efficient RL reasoning via LoRA. We validate this across multiple open-source reasoning datasets and various ablation settings starting with a single, fixed set of hyperparameters. Furthermore, we hypothesize that this effectiveness and efficiency stem from LoRA rapidly adapting the model to the structural format of reasoning rewarded by RL, while largely preserving the base model's underlying knowledge. In service of accessibility and open research, we fully open-source all code, training logs, and model weights \& checkpoints.

Tina: Modelos de Razonamiento Compactos mediante LoRA

Tina: Tiny Reasoning Models via LoRA

Resumen

Support