ChatPaper.aiChatPaper

BhashaBench V1: Een Uitgebreide Benchmark voor het Kwadrant van Indic Domeinen

BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

October 29, 2025
Auteurs: Vijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan
cs.AI

Samenvatting

De snelle vooruitgang van grote taalmmodellen (Large Language Models, LLM's) heeft de behoefte aan domein- en cultuurspecifieke evaluatie geïntensiveerd. Bestaande benchmarks zijn grotendeels anglocentrisch en domein-agnostisch, wat hun toepasbaarheid op India-gerichte contexten beperkt. Om dit gat te dichten, introduceren wij BhashaBench V1, de eerste domeinspecifieke, multitask-, tweetalige benchmark die zich richt op kritieke Indiase kennissystemen. BhashaBench V1 bevat 74.166 zorgvuldig samengestelde vraag-antwoordparen, waarvan 52.494 in het Engels en 21.672 in het Hindi, afkomstig uit authentieke overheids- en domeinspecifieke examens. Het bestrijkt vier belangrijke domeinen: Landbouw, Juridisch, Financieel en Ayurveda, bestaande uit 90+ subdomeinen en behandelt 500+ onderwerpen, wat een fijnmazige evaluatie mogelijk maakt. Evaluatie van 29+ LLM's onthult significante domein- en taal specifieke prestatiekloven, met name grote verschillen in domeinen met weinig bronnen. GPT-4o behaalt bijvoorbeeld 76,49% algemene nauwkeurigheid in het juridisch domein, maar slechts 59,74% in Ayurveda. Modellen presteren consistent beter op Engelstalige inhoud vergeleken met Hindi in alle domeinen. Analyse op subdomeinniveau toont aan dat gebieden zoals Cyberrecht en Internationale Financiën relatief goed presteren, terwijl Panchakarma, Zaadwetenschap en Mensenrechten opmerkelijk zwak blijven. BhashaBench V1 biedt een uitgebreide dataset voor het evalueren van grote taalmmodellen binnen India's diverse kennisdomeinen. Het maakt beoordeling mogelijk van het vermogen van modellen om domeinspecifieke kennis te integreren met tweetalig begrip. Alle code, benchmarks en bronnen zijn openbaar beschikbaar om open onderzoek te ondersteunen.
English
The rapid advancement of large language models(LLMs) has intensified the need for domain and culture specific evaluation. Existing benchmarks are largely Anglocentric and domain-agnostic, limiting their applicability to India-centric contexts. To address this gap, we introduce BhashaBench V1, the first domain-specific, multi-task, bilingual benchmark focusing on critical Indic knowledge systems. BhashaBench V1 contains 74,166 meticulously curated question-answer pairs, with 52,494 in English and 21,672 in Hindi, sourced from authentic government and domain-specific exams. It spans four major domains: Agriculture, Legal, Finance, and Ayurveda, comprising 90+ subdomains and covering 500+ topics, enabling fine-grained evaluation. Evaluation of 29+ LLMs reveals significant domain and language specific performance gaps, with especially large disparities in low-resource domains. For instance, GPT-4o achieves 76.49% overall accuracy in Legal but only 59.74% in Ayurveda. Models consistently perform better on English content compared to Hindi across all domains. Subdomain-level analysis shows that areas such as Cyber Law, International Finance perform relatively well, while Panchakarma, Seed Science, and Human Rights remain notably weak. BhashaBench V1 provides a comprehensive dataset for evaluating large language models across India's diverse knowledge domains. It enables assessment of models' ability to integrate domain-specific knowledge with bilingual understanding. All code, benchmarks, and resources are publicly available to support open research.
PDF31December 2, 2025