ChatPaper.aiChatPaper

Tina: Modelli di Ragionamento Compatti tramite LoRA

Tina: Tiny Reasoning Models via LoRA

April 22, 2025
Autori: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger
cs.AI

Abstract

Con quale rapporto costo-efficacia è possibile ottenere capacità di ragionamento avanzate nei modelli linguistici? Spinti da questa domanda fondamentale, presentiamo Tina, una famiglia di piccoli modelli di ragionamento realizzati con un'elevata efficienza in termini di costi. In particolare, Tina dimostra che è possibile sviluppare prestazioni di ragionamento significative utilizzando solo risorse minime, applicando aggiornamenti efficienti in termini di parametri durante l'apprendimento per rinforzo (RL), utilizzando l'adattamento a basso rango (LoRA), su un modello base già piccolo di 1,5 miliardi di parametri. Questo approccio minimalista produce modelli che raggiungono prestazioni di ragionamento competitive e talvolta superiori ai modelli RL SOTA costruiti sullo stesso modello base. Questo risultato è ottenuto a una frazione minima del costo computazionale post-addestramento impiegato dai modelli SOTA esistenti. Infatti, il miglior modello Tina ottiene un aumento delle prestazioni di ragionamento superiore al 20% e un'accuratezza Pass@1 del 43,33% su AIME24, con un costo post-addestramento e valutazione di soli \$9 USD (ovvero una riduzione stimata dei costi di 260 volte). Il nostro lavoro rivela la sorprendente efficacia del ragionamento RL efficiente tramite LoRA. Validiamo questo risultato su più dataset di ragionamento open-source e in varie configurazioni di ablazione partendo da un singolo set fisso di iperparametri. Inoltre, ipotizziamo che questa efficacia ed efficienza derivino dalla capacità di LoRA di adattare rapidamente il modello al formato strutturale del ragionamento premiato dall'RL, preservando in gran parte la conoscenza sottostante del modello base. Al fine di promuovere l'accessibilità e la ricerca aperta, rendiamo completamente open-source tutto il codice, i log di addestramento e i pesi & checkpoint dei modelli.
English
How cost-effectively can strong reasoning abilities be achieved in language models? Driven by this fundamental question, we present Tina, a family of tiny reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates that substantial reasoning performance can be developed using only minimal resources, by applying parameter-efficient updates during reinforcement learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B parameter base model. This minimalist approach produces models that achieve reasoning performance which is competitive with, and sometimes surpasses, SOTA RL reasoning models built upon the same base model. Crucially, this is achieved at a tiny fraction of the computational post-training cost employed by existing SOTA models. In fact, the best Tina model achieves a >20\% reasoning performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our work reveals the surprising effectiveness of efficient RL reasoning via LoRA. We validate this across multiple open-source reasoning datasets and various ablation settings starting with a single, fixed set of hyperparameters. Furthermore, we hypothesize that this effectiveness and efficiency stem from LoRA rapidly adapting the model to the structural format of reasoning rewarded by RL, while largely preserving the base model's underlying knowledge. In service of accessibility and open research, we fully open-source all code, training logs, and model weights \& checkpoints.

Summary

AI-Generated Summary

PDF504April 24, 2025