ChatPaper.aiChatPaper

Aryabhata: Um modelo de linguagem focado em exames para Matemática do JEE

Aryabhata: An exam-focused language model for JEE Math

August 12, 2025
Autores: Ritvik Rastogi, Sachin Dharashivkar, Sandeep Varma
cs.AI

Resumo

Apresentamos o Aryabhata 1.0, um modelo compacto de raciocínio matemático com 7 bilhões de parâmetros, otimizado para o exame acadêmico indiano, o Joint Entrance Examination (JEE). Apesar dos rápidos avanços nos modelos de linguagem de grande escala (LLMs), os modelos atuais frequentemente permanecem inadequados para uso educacional. O Aryabhata 1.0 foi construído pela fusão de modelos de raciocínio de código aberto de alta qualidade, seguido por ajuste fino supervisionado (SFT) com aprendizado curricular em traços verificados de cadeia de pensamento (CoT) curados por meio de amostragem de rejeição best-of-n. Para aprimorar ainda mais o desempenho, aplicamos aprendizado por reforço com recompensas verificáveis (RLVR) usando o objetivo A2C com estimativa de vantagem relativa ao grupo, juntamente com estratégias de exploração inovadoras, como Redimensionamento Adaptativo de Grupo e Escalonamento de Temperatura. Avaliado em benchmarks tanto dentro da distribuição (JEE Main 2025) quanto fora da distribuição (MATH, GSM8K), o Aryabhata supera os modelos existentes em precisão e eficiência, ao mesmo tempo em que oferece raciocínio passo a passo pedagogicamente útil. Lançamos o Aryabhata como um modelo de base para avançar os modelos de linguagem pequenos de código aberto centrados em exames. Este é o nosso primeiro lançamento aberto para feedback da comunidade (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 no Hugging Face}); a PW está treinando ativamente modelos futuros para melhorar ainda mais os resultados de aprendizagem dos alunos.
English
We present Aryabhata 1.0, a compact 7B parameter math reasoning model optimized for the Indian academic exam, the Joint Entrance Examination (JEE). Despite rapid progress in large language models (LLMs), current models often remain unsuitable for educational use. Aryabhata 1.0 is built by merging strong open-weight reasoning models, followed by supervised fine-tuning (SFT) with curriculum learning on verified chain-of-thought (CoT) traces curated through best-of-n rejection sampling. To further boost performance, we apply reinforcement learning with verifiable rewards (RLVR) using A2C objective with group-relative advantage estimation alongwith novel exploration strategies such as Adaptive Group Resizing and Temperature Scaling. Evaluated on both in-distribution (JEE Main 2025) and out-of-distribution (MATH, GSM8K) benchmarks, Aryabhata outperforms existing models in accuracy and efficiency, while offering pedagogically useful step-by-step reasoning. We release Aryabhata as a foundation model to advance exam-centric, open-source small language models. This marks our first open release for community feedback (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 on Hugging Face}); PW is actively training future models to further improve learning outcomes for students.
PDF162August 13, 2025