ChatPaper.aiChatPaper

Aryabhata: Un modelo de lenguaje centrado en exámenes para matemáticas del JEE

Aryabhata: An exam-focused language model for JEE Math

August 12, 2025
Autores: Ritvik Rastogi, Sachin Dharashivkar, Sandeep Varma
cs.AI

Resumen

Presentamos Aryabhata 1.0, un modelo compacto de razonamiento matemático con 7B parámetros optimizado para el examen académico indio, el Joint Entrance Examination (JEE). A pesar del rápido progreso en los modelos de lenguaje grandes (LLMs), los modelos actuales a menudo siguen siendo inadecuados para uso educativo. Aryabhata 1.0 se construye fusionando modelos de razonamiento de código abierto de alto rendimiento, seguido de un ajuste fino supervisado (SFT) con aprendizaje curricular basado en trazas verificadas de cadena de pensamiento (CoT) curadas mediante muestreo de rechazo best-of-n. Para mejorar aún más el rendimiento, aplicamos aprendizaje por refuerzo con recompensas verificables (RLVR) utilizando el objetivo A2C con estimación de ventaja relativa grupal junto con estrategias de exploración novedosas como Redimensionamiento Adaptativo de Grupos y Escalado de Temperatura. Evaluado tanto en puntos de referencia dentro de la distribución (JEE Main 2025) como fuera de la distribución (MATH, GSM8K), Aryabhata supera a los modelos existentes en precisión y eficiencia, al mismo tiempo que ofrece un razonamiento paso a paso pedagógicamente útil. Lanzamos Aryabhata como un modelo base para avanzar en modelos de lenguaje pequeños de código abierto centrados en exámenes. Este es nuestro primer lanzamiento abierto para recibir comentarios de la comunidad (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 en Hugging Face}); PW está entrenando activamente modelos futuros para mejorar aún más los resultados de aprendizaje de los estudiantes.
English
We present Aryabhata 1.0, a compact 7B parameter math reasoning model optimized for the Indian academic exam, the Joint Entrance Examination (JEE). Despite rapid progress in large language models (LLMs), current models often remain unsuitable for educational use. Aryabhata 1.0 is built by merging strong open-weight reasoning models, followed by supervised fine-tuning (SFT) with curriculum learning on verified chain-of-thought (CoT) traces curated through best-of-n rejection sampling. To further boost performance, we apply reinforcement learning with verifiable rewards (RLVR) using A2C objective with group-relative advantage estimation alongwith novel exploration strategies such as Adaptive Group Resizing and Temperature Scaling. Evaluated on both in-distribution (JEE Main 2025) and out-of-distribution (MATH, GSM8K) benchmarks, Aryabhata outperforms existing models in accuracy and efficiency, while offering pedagogically useful step-by-step reasoning. We release Aryabhata as a foundation model to advance exam-centric, open-source small language models. This marks our first open release for community feedback (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 on Hugging Face}); PW is actively training future models to further improve learning outcomes for students.
PDF152August 13, 2025