ChatPaper.aiChatPaper

아리아바타: JEE 수학 시험 대비 언어 모델

Aryabhata: An exam-focused language model for JEE Math

August 12, 2025
저자: Ritvik Rastogi, Sachin Dharashivkar, Sandeep Varma
cs.AI

초록

인도 학술 시험인 JEE(Joint Entrance Examination)에 최적화된 소형 7B 파라미터 수학 추론 모델인 Aryabhata 1.0을 소개합니다. 대형 언어 모델(LLM)의 급속한 발전에도 불구하고, 현재의 모델들은 여전히 교육적 활용에 적합하지 않은 경우가 많습니다. Aryabhata 1.0은 강력한 오픈 웨이트 추론 모델들을 통합한 후, 검증된 사고 연쇄(CoT) 추적 데이터를 기반으로 한 커리큘럼 학습을 통해 지도 미세 조정(SFT)을 거쳐 구축되었습니다. 성능을 더욱 향상시키기 위해, 그룹 상대적 이점 추정과 함께 A2C 목적 함수를 사용한 검증 가능한 보상 강화 학습(RLVR)을 적용하고, 적응형 그룹 크기 조정 및 온도 스케일링과 같은 새로운 탐색 전략을 도입했습니다. 인-분포(JEE Main 2025) 및 아웃-오브-분포(MATH, GSM8K) 벤치마크에서 평가된 Aryabhata는 정확도와 효율성 면에서 기존 모델들을 능가하며, 교육적으로 유용한 단계별 추론을 제공합니다. 우리는 시험 중심의 오픈소스 소형 언어 모델의 발전을 위해 Aryabhata를 기반 모델로 공개합니다. 이는 커뮤니티 피드백을 위한 첫 번째 공개 릴리스입니다(https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 on Hugging Face}); PW는 학생들의 학습 성과를 더욱 개선하기 위해 향후 모델들을 적극적으로 훈련 중입니다.
English
We present Aryabhata 1.0, a compact 7B parameter math reasoning model optimized for the Indian academic exam, the Joint Entrance Examination (JEE). Despite rapid progress in large language models (LLMs), current models often remain unsuitable for educational use. Aryabhata 1.0 is built by merging strong open-weight reasoning models, followed by supervised fine-tuning (SFT) with curriculum learning on verified chain-of-thought (CoT) traces curated through best-of-n rejection sampling. To further boost performance, we apply reinforcement learning with verifiable rewards (RLVR) using A2C objective with group-relative advantage estimation alongwith novel exploration strategies such as Adaptive Group Resizing and Temperature Scaling. Evaluated on both in-distribution (JEE Main 2025) and out-of-distribution (MATH, GSM8K) benchmarks, Aryabhata outperforms existing models in accuracy and efficiency, while offering pedagogically useful step-by-step reasoning. We release Aryabhata as a foundation model to advance exam-centric, open-source small language models. This marks our first open release for community feedback (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 on Hugging Face}); PW is actively training future models to further improve learning outcomes for students.
PDF152August 13, 2025