ChatPaper.aiChatPaper

Aryabhata: Un modello linguistico focalizzato sugli esami per la matematica del JEE

Aryabhata: An exam-focused language model for JEE Math

August 12, 2025
Autori: Ritvik Rastogi, Sachin Dharashivkar, Sandeep Varma
cs.AI

Abstract

Presentiamo Aryabhata 1.0, un modello compatto da 7B parametri ottimizzato per il ragionamento matematico nell'ambito dell'esame accademico indiano, il Joint Entrance Examination (JEE). Nonostante i rapidi progressi nei grandi modelli linguistici (LLM), i modelli attuali spesso rimangono inadatti all'uso educativo. Aryabhata 1.0 è stato costruito unendo modelli open-weight avanzati per il ragionamento, seguito da un fine-tuning supervisionato (SFT) con apprendimento curriculare su tracce verificate di catena di pensiero (CoT) selezionate attraverso il campionamento di rifiuto best-of-n. Per migliorare ulteriormente le prestazioni, abbiamo applicato l'apprendimento per rinforzo con ricompense verificabili (RLVR) utilizzando l'obiettivo A2C con stima del vantaggio relativo al gruppo, insieme a nuove strategie di esplorazione come il Ridimensionamento Adattivo del Gruppo e il Ridimensionamento della Temperatura. Valutato sia su benchmark in-distribuzione (JEE Main 2025) che out-of-distribuzione (MATH, GSM8K), Aryabhata supera i modelli esistenti in termini di accuratezza ed efficienza, offrendo un ragionamento passo-passo pedagogicamente utile. Rilasciamo Aryabhata come modello di base per promuovere modelli linguistici piccoli, open-source e centrati sugli esami. Questo segna il nostro primo rilascio aperto per il feedback della comunità (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 su Hugging Face}); PW sta attivamente addestrando modelli futuri per migliorare ulteriormente i risultati di apprendimento degli studenti.
English
We present Aryabhata 1.0, a compact 7B parameter math reasoning model optimized for the Indian academic exam, the Joint Entrance Examination (JEE). Despite rapid progress in large language models (LLMs), current models often remain unsuitable for educational use. Aryabhata 1.0 is built by merging strong open-weight reasoning models, followed by supervised fine-tuning (SFT) with curriculum learning on verified chain-of-thought (CoT) traces curated through best-of-n rejection sampling. To further boost performance, we apply reinforcement learning with verifiable rewards (RLVR) using A2C objective with group-relative advantage estimation alongwith novel exploration strategies such as Adaptive Group Resizing and Temperature Scaling. Evaluated on both in-distribution (JEE Main 2025) and out-of-distribution (MATH, GSM8K) benchmarks, Aryabhata outperforms existing models in accuracy and efficiency, while offering pedagogically useful step-by-step reasoning. We release Aryabhata as a foundation model to advance exam-centric, open-source small language models. This marks our first open release for community feedback (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 on Hugging Face}); PW is actively training future models to further improve learning outcomes for students.
PDF162August 13, 2025