Tina : Modèles de raisonnement compacts via LoRA
Tina: Tiny Reasoning Models via LoRA
April 22, 2025
Auteurs: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger
cs.AI
Résumé
Comment peut-on atteindre des capacités de raisonnement solides dans les modèles de langage de manière rentable ? Motivés par cette question fondamentale, nous présentons Tina, une famille de petits modèles de raisonnement obtenus avec une grande efficacité économique. Tina démontre de manière notable que des performances substantielles en matière de raisonnement peuvent être développées en utilisant uniquement des ressources minimales, en appliquant des mises à jour paramétriquement efficaces lors de l'apprentissage par renforcement (RL), en utilisant l'adaptation à faible rang (LoRA), sur un modèle de base déjà petit de 1,5 milliard de paramètres. Cette approche minimaliste produit des modèles qui atteignent des performances de raisonnement compétitives, et parfois supérieures, aux modèles de raisonnement RL de pointe (SOTA) construits sur le même modèle de base. Ceci est crucialement réalisé à une fraction infime du coût de post-formation computationnel employé par les modèles SOTA existants. En fait, le meilleur modèle Tina obtient une augmentation de plus de 20 % des performances de raisonnement et une précision Pass@1 de 43,33 % sur AIME24, pour un coût de post-formation et d'évaluation de seulement 9 USD (soit une réduction estimée de 260 fois). Notre travail révèle l'efficacité surprenante du raisonnement RL efficace via LoRA. Nous validons cela sur plusieurs ensembles de données de raisonnement open-source et divers paramètres d'ablation, en partant d'un seul ensemble fixe d'hyperparamètres. De plus, nous émettons l'hypothèse que cette efficacité et cette efficience découlent de la capacité de LoRA à adapter rapidement le modèle au format structurel de raisonnement récompensé par le RL, tout en préservant largement les connaissances sous-jacentes du modèle de base. Au service de l'accessibilité et de la recherche ouverte, nous mettons à disposition en open-source tout le code, les journaux de formation, ainsi que les poids et points de contrôle des modèles.
English
How cost-effectively can strong reasoning abilities be achieved in language
models? Driven by this fundamental question, we present Tina, a family of tiny
reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates
that substantial reasoning performance can be developed using only minimal
resources, by applying parameter-efficient updates during reinforcement
learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B
parameter base model. This minimalist approach produces models that achieve
reasoning performance which is competitive with, and sometimes surpasses, SOTA
RL reasoning models built upon the same base model. Crucially, this is achieved
at a tiny fraction of the computational post-training cost employed by existing
SOTA models. In fact, the best Tina model achieves a >20\% reasoning
performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD
post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our
work reveals the surprising effectiveness of efficient RL reasoning via LoRA.
We validate this across multiple open-source reasoning datasets and various
ablation settings starting with a single, fixed set of hyperparameters.
Furthermore, we hypothesize that this effectiveness and efficiency stem from
LoRA rapidly adapting the model to the structural format of reasoning rewarded
by RL, while largely preserving the base model's underlying knowledge. In
service of accessibility and open research, we fully open-source all code,
training logs, and model weights \& checkpoints.Summary
AI-Generated Summary