Aryabhata: Языковая модель, ориентированная на подготовку к экзаменам по математике для JEE
Aryabhata: An exam-focused language model for JEE Math
August 12, 2025
Авторы: Ritvik Rastogi, Sachin Dharashivkar, Sandeep Varma
cs.AI
Аннотация
Представляем Aryabhata 1.0 — компактную модель математического мышления с 7 миллиардами параметров, оптимизированную для индийского вступительного экзамена Joint Entrance Examination (JEE). Несмотря на быстрый прогресс в области больших языковых моделей (LLM), современные модели часто остаются непригодными для образовательных целей. Aryabhata 1.0 создана путем объединения мощных открытых моделей для рассуждений с последующим контролируемым тонким обучением (SFT) с использованием учебного плана на проверенных траекториях цепочки рассуждений (CoT), отобранных методом best-of-n rejection sampling. Для дальнейшего повышения производительности применяется обучение с подкреплением с проверяемыми наградами (RLVR) с использованием цели A2C и оценки группового относительного преимущества, а также новых стратегий исследования, таких как адаптивное изменение размера группы и масштабирование температуры.
Оцененная как на входящих в распределение (JEE Main 2025), так и на выходящих за его пределы (MATH, GSM8K) тестах, Aryabhata превосходит существующие модели по точности и эффективности, предлагая педагогически полезные пошаговые рассуждения. Мы выпускаем Aryabhata в качестве базовой модели для продвижения экзамено-ориентированных, открытых малых языковых моделей. Это наш первый открытый релиз для получения обратной связи от сообщества (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 на Hugging Face}); PW активно обучает будущие модели для дальнейшего улучшения результатов обучения студентов.
English
We present Aryabhata 1.0, a compact 7B parameter math reasoning
model optimized for the Indian academic exam, the Joint Entrance Examination
(JEE). Despite rapid progress in large language models (LLMs), current models
often remain unsuitable for educational use. Aryabhata 1.0 is built by merging
strong open-weight reasoning models, followed by supervised fine-tuning (SFT)
with curriculum learning on verified chain-of-thought (CoT) traces curated
through best-of-n rejection sampling. To further boost performance, we apply
reinforcement learning with verifiable rewards (RLVR) using A2C objective with
group-relative advantage estimation alongwith novel exploration strategies such
as Adaptive Group Resizing and Temperature Scaling.
Evaluated on both in-distribution (JEE Main 2025) and out-of-distribution
(MATH, GSM8K) benchmarks, Aryabhata outperforms existing models in accuracy and
efficiency, while offering pedagogically useful step-by-step reasoning. We
release Aryabhata as a foundation model to advance exam-centric, open-source
small language models. This marks our first open release for community feedback
(https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0
on Hugging Face}); PW is actively training future models to further improve
learning outcomes for students.