Tina: Modelos de Raciocínio Compactos via LoRA
Tina: Tiny Reasoning Models via LoRA
April 22, 2025
Autores: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger
cs.AI
Resumo
Com que custo-benefício as habilidades de raciocínio robustas podem ser alcançadas em modelos de linguagem? Motivados por essa questão fundamental, apresentamos Tina, uma família de modelos de raciocínio compactos obtidos com alta eficiência de custo. Notavelmente, Tina demonstra que um desempenho substancial de raciocínio pode ser desenvolvido utilizando apenas recursos mínimos, aplicando atualizações eficientes em termos de parâmetros durante o aprendizado por reforço (RL), usando adaptação de baixa classificação (LoRA), a um modelo base já compacto de 1,5 bilhão de parâmetros. Essa abordagem minimalista produz modelos que alcançam um desempenho de raciocínio competitivo e, às vezes, superior aos modelos de raciocínio RL state-of-the-art (SOTA) construídos sobre o mesmo modelo base. Crucialmente, isso é alcançado com uma fração mínima do custo computacional pós-treinamento empregado pelos modelos SOTA existentes. Na verdade, o melhor modelo Tina alcança um aumento de mais de 20% no desempenho de raciocínio e uma precisão de 43,33% em Pass@1 no AIME24, com um custo de pós-treinamento e avaliação de apenas \$9 USD (ou seja, uma redução de custo estimada em 260 vezes). Nosso trabalho revela a surpreendente eficácia do raciocínio RL eficiente via LoRA. Validamos isso em vários conjuntos de dados de raciocínio de código aberto e diversas configurações de ablação, começando com um único conjunto fixo de hiperparâmetros. Além disso, hipotetizamos que essa eficácia e eficiência decorrem da capacidade do LoRA de adaptar rapidamente o modelo ao formato estrutural de raciocínio recompensado pelo RL, preservando amplamente o conhecimento subjacente do modelo base. Em prol da acessibilidade e da pesquisa aberta, disponibilizamos totalmente o código, logs de treinamento e pesos & checkpoints dos modelos.
English
How cost-effectively can strong reasoning abilities be achieved in language
models? Driven by this fundamental question, we present Tina, a family of tiny
reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates
that substantial reasoning performance can be developed using only minimal
resources, by applying parameter-efficient updates during reinforcement
learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B
parameter base model. This minimalist approach produces models that achieve
reasoning performance which is competitive with, and sometimes surpasses, SOTA
RL reasoning models built upon the same base model. Crucially, this is achieved
at a tiny fraction of the computational post-training cost employed by existing
SOTA models. In fact, the best Tina model achieves a >20\% reasoning
performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD
post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our
work reveals the surprising effectiveness of efficient RL reasoning via LoRA.
We validate this across multiple open-source reasoning datasets and various
ablation settings starting with a single, fixed set of hyperparameters.
Furthermore, we hypothesize that this effectiveness and efficiency stem from
LoRA rapidly adapting the model to the structural format of reasoning rewarded
by RL, while largely preserving the base model's underlying knowledge. In
service of accessibility and open research, we fully open-source all code,
training logs, and model weights \& checkpoints.Summary
AI-Generated Summary