BhashaBench V1: Un Punto de Referencia Integral para el Cuadrante de los Dominios Índicos
BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains
October 29, 2025
Autores: Vijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan
cs.AI
Resumen
El rápido avance de los modelos de lenguaje grandes (LLM) ha intensificado la necesidad de una evaluación específica por dominio y cultura. Los puntos de referencia existentes son en gran parte anglocéntricos y agnósticos al dominio, lo que limita su aplicabilidad en contextos centrados en la India. Para abordar esta brecha, presentamos BhashaBench V1, el primer punto de referencia bilingüe, multitudinario y específico del dominio centrado en los sistemas de conocimiento críticos de la India. BhashaBench V1 contiene 74,166 pares de preguntas y respuestas meticulosamente seleccionados, con 52,494 en inglés y 21,672 en hindi, obtenidos de exámenes auténticos gubernamentales y específicos del dominio. Abarca cuatro dominios principales: Agricultura, Legal, Finanzas y Ayurveda, que comprenden más de 90 subdominios y cubren más de 500 temas, permitiendo una evaluación de grano fino. La evaluación de más de 29 LLM revela brechas de rendimiento significativas específicas del dominio y del idioma, con disparidades especialmente grandes en dominios de bajos recursos. Por ejemplo, GPT-4o logra un 76.49% de precisión general en Legal, pero solo un 59.74% en Ayurveda. Los modelos consistentemente rinden mejor en contenido en inglés en comparación con el hindi en todos los dominios. El análisis a nivel de subdominio muestra que áreas como Derecho Cibernético y Finanzas Internacionales tienen un rendimiento relativamente bueno, mientras que Panchakarma, Ciencia de Semillas y Derechos Humanos permanecen notablemente débiles. BhashaBench V1 proporciona un conjunto de datos integral para evaluar modelos de lenguaje grandes en los diversos dominios de conocimiento de la India. Permite evaluar la capacidad de los modelos para integrar conocimiento específico del dominio con comprensión bilingüe. Todo el código, puntos de referencia y recursos están disponibles públicamente para apoyar la investigación abierta.
English
The rapid advancement of large language models(LLMs) has intensified the need
for domain and culture specific evaluation. Existing benchmarks are largely
Anglocentric and domain-agnostic, limiting their applicability to India-centric
contexts. To address this gap, we introduce BhashaBench V1, the first
domain-specific, multi-task, bilingual benchmark focusing on critical Indic
knowledge systems. BhashaBench V1 contains 74,166 meticulously curated
question-answer pairs, with 52,494 in English and 21,672 in Hindi, sourced from
authentic government and domain-specific exams. It spans four major domains:
Agriculture, Legal, Finance, and Ayurveda, comprising 90+ subdomains and
covering 500+ topics, enabling fine-grained evaluation. Evaluation of 29+ LLMs
reveals significant domain and language specific performance gaps, with
especially large disparities in low-resource domains. For instance, GPT-4o
achieves 76.49% overall accuracy in Legal but only 59.74% in Ayurveda. Models
consistently perform better on English content compared to Hindi across all
domains. Subdomain-level analysis shows that areas such as Cyber Law,
International Finance perform relatively well, while Panchakarma, Seed Science,
and Human Rights remain notably weak. BhashaBench V1 provides a comprehensive
dataset for evaluating large language models across India's diverse knowledge
domains. It enables assessment of models' ability to integrate domain-specific
knowledge with bilingual understanding. All code, benchmarks, and resources are
publicly available to support open research.