ChatPaper.aiChatPaper

BhashaBench V1 : Un benchmark complet pour le quadrant des domaines indiens

BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

October 29, 2025
papers.authors: Vijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan
cs.AI

papers.abstract

L'avancée rapide des grands modèles de langage (LLM) a accru la nécessité d'une évaluation spécifique aux domaines et aux cultures. Les benchmarks existants sont largement anglocentriques et agnostiques au domaine, limitant ainsi leur applicabilité aux contextes centrés sur l'Inde. Pour combler cette lacune, nous présentons BhashaBench V1, le premier benchmark bilingue, multi-tâches et spécifique à un domaine, axé sur les systèmes de connaissances indic critiques. BhashaBench V1 contient 74 166 paires question-réponse soigneusement élaborées, dont 52 494 en anglais et 21 672 en hindi, provenant d'examens gouvernementaux authentiques et spécifiques au domaine. Il couvre quatre domaines majeurs : Agriculture, Droit, Finance et Ayurveda, comprenant plus de 90 sous-domaines et couvrant plus de 500 sujets, permettant une évaluation granulaire. L'évaluation de plus de 29 LLM révèle des écarts de performance significatifs spécifiques au domaine et à la langue, avec des disparités particulièrement importantes dans les domaines pauvres en ressources. Par exemple, GPT-4o atteint une précision globale de 76,49 % en Droit mais seulement 59,74 % en Ayurveda. Les modèles performent systématiquement mieux sur le contenu anglais que sur le contenu hindi dans tous les domaines. L'analyse au niveau des sous-domaines montre que des domaines comme le Cyberdroit et la Finance internationale s'en sortent relativement bien, tandis que le Panchakarma, la Science des semences et les Droits de l'homme restent notablement faibles. BhashaBench V1 fournit un jeu de données complet pour évaluer les grands modèles de langage à travers les divers domaines de connaissance de l'Inde. Il permet d'évaluer la capacité des modèles à intégrer des connaissances spécifiques à un domaine avec une compréhension bilingue. Tous les codes, benchmarks et ressources sont librement accessibles pour soutenir la recherche ouverte.
English
The rapid advancement of large language models(LLMs) has intensified the need for domain and culture specific evaluation. Existing benchmarks are largely Anglocentric and domain-agnostic, limiting their applicability to India-centric contexts. To address this gap, we introduce BhashaBench V1, the first domain-specific, multi-task, bilingual benchmark focusing on critical Indic knowledge systems. BhashaBench V1 contains 74,166 meticulously curated question-answer pairs, with 52,494 in English and 21,672 in Hindi, sourced from authentic government and domain-specific exams. It spans four major domains: Agriculture, Legal, Finance, and Ayurveda, comprising 90+ subdomains and covering 500+ topics, enabling fine-grained evaluation. Evaluation of 29+ LLMs reveals significant domain and language specific performance gaps, with especially large disparities in low-resource domains. For instance, GPT-4o achieves 76.49% overall accuracy in Legal but only 59.74% in Ayurveda. Models consistently perform better on English content compared to Hindi across all domains. Subdomain-level analysis shows that areas such as Cyber Law, International Finance perform relatively well, while Panchakarma, Seed Science, and Human Rights remain notably weak. BhashaBench V1 provides a comprehensive dataset for evaluating large language models across India's diverse knowledge domains. It enables assessment of models' ability to integrate domain-specific knowledge with bilingual understanding. All code, benchmarks, and resources are publicly available to support open research.
PDF31December 2, 2025