BhashaBench V1:インド圏4領域の包括的ベンチマーク
BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains
October 29, 2025
著者: Vijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan
cs.AI
要旨
大規模言語モデル(LLM)の急速な進歩に伴い、ドメインおよび文化に特化した評価の必要性が高まっている。既存のベンチマークは主にアングロサクソン中心でドメインに依存しないため、インドを中心とした文脈への適用性が限られている。この課題に対処するため、我々は重要なインドの知識体系に焦点を当てた、初のドメイン特化型・マルチタスク・二言語対応ベンチマークであるBhashaBench V1を提案する。BhashaBench V1は、政府やドメイン固有の試験から収集した信頼性の高い74,166組の質問-回答ペア(英語52,494組、ヒンディー語21,672組)を厳選して含む。農業、法律、金融、アーユルヴェーダの4つの主要ドメインを網羅し、90以上のサブドメイン、500以上のトピックを含むため、きめ細かい評価が可能である。29以上のLLMを評価した結果、特にリソースの少ないドメインにおいて、顕著なドメインおよび言語依存の性能差が明らかになった。例えば、GPT-4oは法律ドメインで76.49%の総合精度を達成したが、アーユルヴェーダでは59.74%に留まった。全てのドメインにおいて、モデルはヒンディー語コンテンツよりも英語コンテンツで一貫して高い性能を示した。サブドメインレベルの分析では、サイバー法や国際金融などの分野は比較的良好な性能であるのに対し、パンチャカルマ、種子科学、人権などの分野は特に弱点であることが示された。BhashaBench V1は、インドの多様な知識ドメインにわたる大規模言語モデルの評価包括的なデータセットを提供する。これにより、ドメイン固有の知識と二言語理解能力を統合するモデルの能力を評価できる。すべてのコード、ベンチマーク、リソースは公開研究を支援するために公開されている。
English
The rapid advancement of large language models(LLMs) has intensified the need
for domain and culture specific evaluation. Existing benchmarks are largely
Anglocentric and domain-agnostic, limiting their applicability to India-centric
contexts. To address this gap, we introduce BhashaBench V1, the first
domain-specific, multi-task, bilingual benchmark focusing on critical Indic
knowledge systems. BhashaBench V1 contains 74,166 meticulously curated
question-answer pairs, with 52,494 in English and 21,672 in Hindi, sourced from
authentic government and domain-specific exams. It spans four major domains:
Agriculture, Legal, Finance, and Ayurveda, comprising 90+ subdomains and
covering 500+ topics, enabling fine-grained evaluation. Evaluation of 29+ LLMs
reveals significant domain and language specific performance gaps, with
especially large disparities in low-resource domains. For instance, GPT-4o
achieves 76.49% overall accuracy in Legal but only 59.74% in Ayurveda. Models
consistently perform better on English content compared to Hindi across all
domains. Subdomain-level analysis shows that areas such as Cyber Law,
International Finance perform relatively well, while Panchakarma, Seed Science,
and Human Rights remain notably weak. BhashaBench V1 provides a comprehensive
dataset for evaluating large language models across India's diverse knowledge
domains. It enables assessment of models' ability to integrate domain-specific
knowledge with bilingual understanding. All code, benchmarks, and resources are
publicly available to support open research.