BhashaBench V1: Ein umfassender Benchmark für den Quadranten indischer Sprachdomänen
BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains
October 29, 2025
papers.authors: Vijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan
cs.AI
papers.abstract
Die rasante Entwicklung großer Sprachmodelle (LLM) hat den Bedarf an domänen- und kulturspezifischer Evaluation verstärkt. Bestehende Benchmarks sind weitgehend anglophon und domänenübergreifend, was ihre Anwendbarkeit auf indienspezifische Kontexte einschränkt. Um diese Lücke zu schließen, stellen wir BhashaBench V1 vor, den ersten domänenspezifischen, multitalentigen, zweisprachigen Benchmark mit Fokus auf kritischen indischen Wissenssystemen. BhashaBench V1 enthält 74.166 sorgfältig kuratierte Frage-Antwort-Paare, davon 52.494 auf Englisch und 21.672 auf Hindi, die aus authentischen behördlichen und domänenspezifischen Prüfungen stammen. Er umfasst vier Hauptdomänen: Landwirtschaft, Recht, Finanzen und Ayurveda, besteht aus 90+ Subdomänen und deckt 500+ Themen ab, was eine feingranulare Evaluation ermöglicht. Die Evaluation von 29+ LLMs zeigt erhebliche domänen- und sprachspezifische Leistungsunterschiede, mit besonders großen Disparitäten in ressourcenarmen Domänen. Beispielsweise erzielt GPT-4o eine Gesamtgenauigkeit von 76,49 % im Bereich Recht, aber nur 59,74 % in Ayurveda. Modelle schneiden durchweg besser bei englischsprachigen Inhalten ab als bei Hindi-Inhalten über alle Domänen hinweg. Eine Subdomänen-Analyse zeigt, dass Bereiche wie Cyberrecht und Internationale Finanzen relativ gut abschneiden, während Panchakarma, Saatgutwissenschaft und Menschenrechte deutlich schwächer bleiben. BhashaBench V1 stellt einen umfassenden Datensatz zur Evaluation großer Sprachmodelle in Indiens vielfältigen Wissensdomänen bereit. Er ermöglicht die Bewertung der Fähigkeit von Modellen, domänenspezifisches Wissen mit bilingualem Verständnis zu integrieren. Alle Codes, Benchmarks und Ressourcen sind öffentlich verfügbar, um offene Forschung zu unterstützen.
English
The rapid advancement of large language models(LLMs) has intensified the need
for domain and culture specific evaluation. Existing benchmarks are largely
Anglocentric and domain-agnostic, limiting their applicability to India-centric
contexts. To address this gap, we introduce BhashaBench V1, the first
domain-specific, multi-task, bilingual benchmark focusing on critical Indic
knowledge systems. BhashaBench V1 contains 74,166 meticulously curated
question-answer pairs, with 52,494 in English and 21,672 in Hindi, sourced from
authentic government and domain-specific exams. It spans four major domains:
Agriculture, Legal, Finance, and Ayurveda, comprising 90+ subdomains and
covering 500+ topics, enabling fine-grained evaluation. Evaluation of 29+ LLMs
reveals significant domain and language specific performance gaps, with
especially large disparities in low-resource domains. For instance, GPT-4o
achieves 76.49% overall accuracy in Legal but only 59.74% in Ayurveda. Models
consistently perform better on English content compared to Hindi across all
domains. Subdomain-level analysis shows that areas such as Cyber Law,
International Finance perform relatively well, while Panchakarma, Seed Science,
and Human Rights remain notably weak. BhashaBench V1 provides a comprehensive
dataset for evaluating large language models across India's diverse knowledge
domains. It enables assessment of models' ability to integrate domain-specific
knowledge with bilingual understanding. All code, benchmarks, and resources are
publicly available to support open research.