BhashaBench V1: Un Benchmark Completo per il Quadrante dei Domini Indici
BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains
October 29, 2025
Autori: Vijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan
cs.AI
Abstract
Il rapido progresso dei grandi modelli linguistici (LLM) ha intensificato la necessità di valutazioni specifiche per dominio e cultura. I benchmark esistenti sono largamente anglocentrici e agnostici al dominio, limitandone l'applicabilità ai contesti incentrati sull'India. Per colmare questa lacuna, presentiamo BhashaBench V1, il primo benchmark bilingue, multi-task e specifico per dominio che si concentra sui sistemi di conoscenza critici dell'Indic. BhashaBench V1 contiene 74.166 coppie domanda-risposta meticolosamente curate, con 52.494 in inglese e 21.672 in hindi, provenienti da autentici esami governativi e di dominio specifico. Copre quattro domini principali: Agricoltura, Legale, Finanza e Ayurveda, comprendendo oltre 90 sottodomini e coprendo più di 500 argomenti, consentendo una valutazione granulare. La valutazione di oltre 29 LLM rivela significative lacune prestazionali specifiche per dominio e lingua, con disparità particolarmente ampie nei domini a bassa risorsa. Ad esempio, GPT-4o raggiunge un'accuratezza complessiva del 76,49% in Legale ma solo del 59,74% in Ayurveda. I modelli performano costantemente meglio sui contenuti in inglese rispetto all'hindi in tutti i domini. L'analisi a livello di sottodominio mostra che aree come Diritto Informatico e Finanza Internazionale performano relativamente bene, mentre Panchakarma, Scienza delle Sementi e Diritti Umani rimangono notevolmente deboli. BhashaBench V1 fornisce un dataset completo per valutare i grandi modelli linguistici attraverso i diversificati domini conoscitivi dell'India. Consente di valutare la capacità dei modelli di integrare la conoscenza dominio-specifica con la comprensione bilingue. Tutto il codice, i benchmark e le risorse sono pubblicamente disponibili per supportare la ricerca aperta.
English
The rapid advancement of large language models(LLMs) has intensified the need
for domain and culture specific evaluation. Existing benchmarks are largely
Anglocentric and domain-agnostic, limiting their applicability to India-centric
contexts. To address this gap, we introduce BhashaBench V1, the first
domain-specific, multi-task, bilingual benchmark focusing on critical Indic
knowledge systems. BhashaBench V1 contains 74,166 meticulously curated
question-answer pairs, with 52,494 in English and 21,672 in Hindi, sourced from
authentic government and domain-specific exams. It spans four major domains:
Agriculture, Legal, Finance, and Ayurveda, comprising 90+ subdomains and
covering 500+ topics, enabling fine-grained evaluation. Evaluation of 29+ LLMs
reveals significant domain and language specific performance gaps, with
especially large disparities in low-resource domains. For instance, GPT-4o
achieves 76.49% overall accuracy in Legal but only 59.74% in Ayurveda. Models
consistently perform better on English content compared to Hindi across all
domains. Subdomain-level analysis shows that areas such as Cyber Law,
International Finance perform relatively well, while Panchakarma, Seed Science,
and Human Rights remain notably weak. BhashaBench V1 provides a comprehensive
dataset for evaluating large language models across India's diverse knowledge
domains. It enables assessment of models' ability to integrate domain-specific
knowledge with bilingual understanding. All code, benchmarks, and resources are
publicly available to support open research.