ChatPaper.aiChatPaper

Тина: Компактные модели логического вывода с использованием LoRA

Tina: Tiny Reasoning Models via LoRA

April 22, 2025
Авторы: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger
cs.AI

Аннотация

Насколько экономически эффективно можно достичь мощных способностей к рассуждению в языковых моделях? Руководствуясь этим фундаментальным вопросом, мы представляем Tina — семейство компактных моделей для рассуждений, созданных с высокой экономической эффективностью. Примечательно, что Tina демонстрирует, что значительная производительность в рассуждениях может быть достигнута с использованием минимальных ресурсов за счет применения параметрически эффективных обновлений в процессе обучения с подкреплением (RL) с использованием низкоранговой адаптации (LoRA) к уже компактной базовой модели с 1,5 миллиардами параметров. Этот минималистичный подход создает модели, которые достигают производительности в рассуждениях, сопоставимой, а иногда и превосходящей современные RL-модели для рассуждений, построенные на той же базовой модели. Важно, что это достигается при ничтожной доле вычислительных затрат на пост-обучение, используемых существующими современными моделями. Фактически, лучшая модель Tina демонстрирует увеличение производительности в рассуждениях более чем на 20% и точность Pass@1 в 43,33% на AIME24 при затратах на пост-обучение и оценку всего в \$9 USD (т.е. предполагаемое сокращение затрат в 260 раз). Наша работа раскрывает удивительную эффективность эффективного RL-обучения рассуждениям с использованием LoRA. Мы подтверждаем это на множестве открытых наборов данных для рассуждений и в различных условиях абляции, начиная с единого фиксированного набора гиперпараметров. Более того, мы предполагаем, что эта эффективность и экономичность обусловлены тем, что LoRA быстро адаптирует модель к структурному формату рассуждений, поощряемому RL, в значительной степени сохраняя базовые знания модели. В целях доступности и открытых исследований мы полностью открываем исходный код, логи обучения, а также веса и контрольные точки моделей.
English
How cost-effectively can strong reasoning abilities be achieved in language models? Driven by this fundamental question, we present Tina, a family of tiny reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates that substantial reasoning performance can be developed using only minimal resources, by applying parameter-efficient updates during reinforcement learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B parameter base model. This minimalist approach produces models that achieve reasoning performance which is competitive with, and sometimes surpasses, SOTA RL reasoning models built upon the same base model. Crucially, this is achieved at a tiny fraction of the computational post-training cost employed by existing SOTA models. In fact, the best Tina model achieves a >20\% reasoning performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our work reveals the surprising effectiveness of efficient RL reasoning via LoRA. We validate this across multiple open-source reasoning datasets and various ablation settings starting with a single, fixed set of hyperparameters. Furthermore, we hypothesize that this effectiveness and efficiency stem from LoRA rapidly adapting the model to the structural format of reasoning rewarded by RL, while largely preserving the base model's underlying knowledge. In service of accessibility and open research, we fully open-source all code, training logs, and model weights \& checkpoints.

Summary

AI-Generated Summary

PDF504April 24, 2025