BhashaBench V1: Комплексный эталонный тест для квадранта индийских доменов
BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains
October 29, 2025
Авторы: Vijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan
cs.AI
Аннотация
Быстрое развитие больших языковых моделей (LLM) обострило потребность в предметно-ориентированной и культурно-специфичной оценке. Существующие бенчмарки в значительной степени англоцентричны и не учитывают предметные области, что ограничивает их применимость в индийских контекстах. Для устранения этого пробела мы представляем BhashaBench V1 — первый предметно-ориентированный, многофункциональный двуязычный бенчмарк, сфокусированный на ключевых индийских системах знаний. BhashaBench V1 содержит 74 166 тщательно отобранных пар «вопрос-ответ», из которых 52 494 на английском и 21 672 на хинди, полученных из аутентичных государственных и предметно-специфичных экзаменов. Он охватывает четыре основные области: сельское хозяйство, право, финансы и аюрведу, включая более 90 поддоменов и охватывая свыше 500 тем, что позволяет проводить детальную оценку. Тестирование 29+ LLM выявило значительные разрывы в производительности в зависимости от предметной области и языка, с особенно большим отставанием в малоресурсных доменах. Например, GPT-4o демонстрирует общую точность 76,49% в области права, но лишь 59,74% в аюрведе. Модели стабильно показывают лучшие результаты на английском контенте по сравнению с хинди во всех областях. Анализ на уровне поддоменов показывает, что такие области, как киберправо и международные финансы, работают относительно хорошо, в то время как панчакарма, наука о семенах и права человека остаются заметно слабыми местами. BhashaBench V1 предоставляет всеобъемлющий набор данных для оценки больших языковых моделей в разнообразных предметных областях Индии. Он позволяет оценить способность моделей интегрировать предметные знания с двуязычным пониманием. Весь код, бенчмарки и ресурсы находятся в открытом доступе для поддержки открытых исследований.
English
The rapid advancement of large language models(LLMs) has intensified the need
for domain and culture specific evaluation. Existing benchmarks are largely
Anglocentric and domain-agnostic, limiting their applicability to India-centric
contexts. To address this gap, we introduce BhashaBench V1, the first
domain-specific, multi-task, bilingual benchmark focusing on critical Indic
knowledge systems. BhashaBench V1 contains 74,166 meticulously curated
question-answer pairs, with 52,494 in English and 21,672 in Hindi, sourced from
authentic government and domain-specific exams. It spans four major domains:
Agriculture, Legal, Finance, and Ayurveda, comprising 90+ subdomains and
covering 500+ topics, enabling fine-grained evaluation. Evaluation of 29+ LLMs
reveals significant domain and language specific performance gaps, with
especially large disparities in low-resource domains. For instance, GPT-4o
achieves 76.49% overall accuracy in Legal but only 59.74% in Ayurveda. Models
consistently perform better on English content compared to Hindi across all
domains. Subdomain-level analysis shows that areas such as Cyber Law,
International Finance perform relatively well, while Panchakarma, Seed Science,
and Human Rights remain notably weak. BhashaBench V1 provides a comprehensive
dataset for evaluating large language models across India's diverse knowledge
domains. It enables assessment of models' ability to integrate domain-specific
knowledge with bilingual understanding. All code, benchmarks, and resources are
publicly available to support open research.