티나: LoRA를 통한 소형 추론 모델
Tina: Tiny Reasoning Models via LoRA
April 22, 2025
저자: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger
cs.AI
초록
강력한 추론 능력을 언어 모델에서 얼마나 비용 효율적으로 달성할 수 있을까? 이 근본적인 질문에 동기를 얻어, 우리는 높은 비용 효율성으로 달성된 소형 추론 모델 패밀리인 Tina를 소개한다. 특히 Tina는 이미 작은 1.5B 파라미터 기반 모델에 강화 학습(RL) 동안 파라미터 효율적인 업데이트를 적용함으로써, 최소한의 자원만으로도 상당한 추론 성능을 개발할 수 있음을 보여준다. 이 미니멀리스트 접근 방식은 동일한 기반 모델을 기반으로 구축된 SOTA RL 추론 모델과 경쟁적이거나 때로는 능가하는 추론 성능을 달성하는 모델을 생산한다. 결정적으로, 이는 기존 SOTA 모델이 사용하는 계산적 사후 학습 비용의 극히 일부로 달성된다. 실제로, 최고의 Tina 모델은 AIME24에서 >20%의 추론 성능 향상과 43.33%의 Pass@1 정확도를 달성하며, 사후 학습 및 평가 비용은 단 \$9 USD에 불과하다(즉, 약 260배의 비용 절감 추정). 우리의 작업은 LoRA를 통한 효율적인 RL 추론의 놀라운 효과를 보여준다. 우리는 이를 단일 고정 하이퍼파라미터 세트로 시작하여 여러 오픈소스 추론 데이터셋과 다양한 어블레이션 설정에서 검증한다. 더 나아가, 우리는 이러한 효과와 효율성이 LoRA가 RL에 의해 보상받는 추론의 구조적 형식에 모델을 빠르게 적응시키는 동시에 기반 모델의 기본 지식을 크게 보존하기 때문이라고 가정한다. 접근성과 개방형 연구를 위해, 우리는 모든 코드, 학습 로그, 모델 가중치 및 체크포인트를 완전히 오픈소스로 공개한다.
English
How cost-effectively can strong reasoning abilities be achieved in language
models? Driven by this fundamental question, we present Tina, a family of tiny
reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates
that substantial reasoning performance can be developed using only minimal
resources, by applying parameter-efficient updates during reinforcement
learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B
parameter base model. This minimalist approach produces models that achieve
reasoning performance which is competitive with, and sometimes surpasses, SOTA
RL reasoning models built upon the same base model. Crucially, this is achieved
at a tiny fraction of the computational post-training cost employed by existing
SOTA models. In fact, the best Tina model achieves a >20\% reasoning
performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD
post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our
work reveals the surprising effectiveness of efficient RL reasoning via LoRA.
We validate this across multiple open-source reasoning datasets and various
ablation settings starting with a single, fixed set of hyperparameters.
Furthermore, we hypothesize that this effectiveness and efficiency stem from
LoRA rapidly adapting the model to the structural format of reasoning rewarded
by RL, while largely preserving the base model's underlying knowledge. In
service of accessibility and open research, we fully open-source all code,
training logs, and model weights \& checkpoints.Summary
AI-Generated Summary