BhashaBench V1: Un Benchmark Completo per il Quadrante dei Domini Indici

Abstract

Il rapido progresso dei grandi modelli linguistici (LLM) ha intensificato la necessità di valutazioni specifiche per dominio e cultura. I benchmark esistenti sono largamente anglocentrici e agnostici al dominio, limitandone l'applicabilità ai contesti incentrati sull'India. Per colmare questa lacuna, presentiamo BhashaBench V1, il primo benchmark bilingue, multi-task e specifico per dominio che si concentra sui sistemi di conoscenza critici dell'Indic. BhashaBench V1 contiene 74.166 coppie domanda-risposta meticolosamente curate, con 52.494 in inglese e 21.672 in hindi, provenienti da autentici esami governativi e di dominio specifico. Copre quattro domini principali: Agricoltura, Legale, Finanza e Ayurveda, comprendendo oltre 90 sottodomini e coprendo più di 500 argomenti, consentendo una valutazione granulare. La valutazione di oltre 29 LLM rivela significative lacune prestazionali specifiche per dominio e lingua, con disparità particolarmente ampie nei domini a bassa risorsa. Ad esempio, GPT-4o raggiunge un'accuratezza complessiva del 76,49% in Legale ma solo del 59,74% in Ayurveda. I modelli performano costantemente meglio sui contenuti in inglese rispetto all'hindi in tutti i domini. L'analisi a livello di sottodominio mostra che aree come Diritto Informatico e Finanza Internazionale performano relativamente bene, mentre Panchakarma, Scienza delle Sementi e Diritti Umani rimangono notevolmente deboli. BhashaBench V1 fornisce un dataset completo per valutare i grandi modelli linguistici attraverso i diversificati domini conoscitivi dell'India. Consente di valutare la capacità dei modelli di integrare la conoscenza dominio-specifica con la comprensione bilingue. Tutto il codice, i benchmark e le risorse sono pubblicamente disponibili per supportare la ricerca aperta.

English

The rapid advancement of large language models(LLMs) has intensified the need for domain and culture specific evaluation. Existing benchmarks are largely Anglocentric and domain-agnostic, limiting their applicability to India-centric contexts. To address this gap, we introduce BhashaBench V1, the first domain-specific, multi-task, bilingual benchmark focusing on critical Indic knowledge systems. BhashaBench V1 contains 74,166 meticulously curated question-answer pairs, with 52,494 in English and 21,672 in Hindi, sourced from authentic government and domain-specific exams. It spans four major domains: Agriculture, Legal, Finance, and Ayurveda, comprising 90+ subdomains and covering 500+ topics, enabling fine-grained evaluation. Evaluation of 29+ LLMs reveals significant domain and language specific performance gaps, with especially large disparities in low-resource domains. For instance, GPT-4o achieves 76.49% overall accuracy in Legal but only 59.74% in Ayurveda. Models consistently perform better on English content compared to Hindi across all domains. Subdomain-level analysis shows that areas such as Cyber Law, International Finance perform relatively well, while Panchakarma, Seed Science, and Human Rights remain notably weak. BhashaBench V1 provides a comprehensive dataset for evaluating large language models across India's diverse knowledge domains. It enables assessment of models' ability to integrate domain-specific knowledge with bilingual understanding. All code, benchmarks, and resources are publicly available to support open research.

BhashaBench V1: Un Benchmark Completo per il Quadrante dei Domini Indici

BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

Abstract

Support