ChatPaper.aiChatPaper

Aryabhata: Языковая модель, ориентированная на подготовку к экзаменам по математике для JEE

Aryabhata: An exam-focused language model for JEE Math

August 12, 2025
Авторы: Ritvik Rastogi, Sachin Dharashivkar, Sandeep Varma
cs.AI

Аннотация

Представляем Aryabhata 1.0 — компактную модель математического мышления с 7 миллиардами параметров, оптимизированную для индийского вступительного экзамена Joint Entrance Examination (JEE). Несмотря на быстрый прогресс в области больших языковых моделей (LLM), современные модели часто остаются непригодными для образовательных целей. Aryabhata 1.0 создана путем объединения мощных открытых моделей для рассуждений с последующим контролируемым тонким обучением (SFT) с использованием учебного плана на проверенных траекториях цепочки рассуждений (CoT), отобранных методом best-of-n rejection sampling. Для дальнейшего повышения производительности применяется обучение с подкреплением с проверяемыми наградами (RLVR) с использованием цели A2C и оценки группового относительного преимущества, а также новых стратегий исследования, таких как адаптивное изменение размера группы и масштабирование температуры. Оцененная как на входящих в распределение (JEE Main 2025), так и на выходящих за его пределы (MATH, GSM8K) тестах, Aryabhata превосходит существующие модели по точности и эффективности, предлагая педагогически полезные пошаговые рассуждения. Мы выпускаем Aryabhata в качестве базовой модели для продвижения экзамено-ориентированных, открытых малых языковых моделей. Это наш первый открытый релиз для получения обратной связи от сообщества (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 на Hugging Face}); PW активно обучает будущие модели для дальнейшего улучшения результатов обучения студентов.
English
We present Aryabhata 1.0, a compact 7B parameter math reasoning model optimized for the Indian academic exam, the Joint Entrance Examination (JEE). Despite rapid progress in large language models (LLMs), current models often remain unsuitable for educational use. Aryabhata 1.0 is built by merging strong open-weight reasoning models, followed by supervised fine-tuning (SFT) with curriculum learning on verified chain-of-thought (CoT) traces curated through best-of-n rejection sampling. To further boost performance, we apply reinforcement learning with verifiable rewards (RLVR) using A2C objective with group-relative advantage estimation alongwith novel exploration strategies such as Adaptive Group Resizing and Temperature Scaling. Evaluated on both in-distribution (JEE Main 2025) and out-of-distribution (MATH, GSM8K) benchmarks, Aryabhata outperforms existing models in accuracy and efficiency, while offering pedagogically useful step-by-step reasoning. We release Aryabhata as a foundation model to advance exam-centric, open-source small language models. This marks our first open release for community feedback (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 on Hugging Face}); PW is actively training future models to further improve learning outcomes for students.
PDF142August 13, 2025