ChatPaper.aiChatPaper

바샤벤치 V1: 인도 언어 분야 4분할에 대한 포괄적 벤치마크

BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

October 29, 2025
저자: Vijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan
cs.AI

초록

대규모 언어 모델(LLM)의 급속한 발전으로 도메인 및 문화 특화 평가의 필요성이 더욱 부각되고 있습니다. 기존 벤치마크는 대부분 영어 중심이며 도메인에 구애받지 않아 인도 중심 맥락에 적용하기에는 한계가 있습니다. 이러한 격차를 해소하기 위해 우리는 중요한 인도 지식 시스템에 초점을 맞춘 최초의 도메인 특화·다중 작업·이중 언어 벤치마크인 BhashaBench V1을 소개합니다. BhashaBench V1은 정부 및 도메인 특화 시험에서 가져온 신뢰할 수 있는 자료를 바탕으로 총 74,166개의 정교하게 구성된 질문-답변 쌍(영어 52,494개, 힌디어 21,672개)을 포함합니다. 이는 농업, 법률, 금융, 아유르베다라는 4가지 주요 도메인에 걸쳐 있으며, 90개 이상의 하위 도메인과 500개 이상의 주제를 다루어 세분화된 평가를 가능하게 합니다. 29개 이상의 LLM을 평가한 결과, 특히 저자원 도메인에서 도메인 및 언어별 성능 격차가 크게 나타났습니다. 예를 들어, GPT-4o는 법률 도메인에서 76.49%의 전체 정확도를 보인 반면 아유르베다 도메인에서는 59.74%에 그쳤습니다. 모든 도메인에서 모델들은 힌디어 콘텐츠보다 영어 콘텐츠에서 지속적으로 더 나은 성능을 보였습니다. 하위 도메인 수준 분석 결과, 사이버 법률, 국제 금융 등의 분야는 상대적으로 성능이 높은 반면, 판차카르마, 종자 과학, 인권 등의 분야는 현저히 취약한 것으로 나타났습니다. BhashaBench V1은 인도의 다양한 지식 도메인에 걸쳐 대규모 언어 모델을 평가하기 위한 포괄적인 데이터셋을 제공합니다. 이를 통해 모델의 도메인 특화 지식과 이중 언어 이해 능력을 통합하는 능력을 평가할 수 있습니다. 모든 코드, 벤치마크 및 리소스는 공개 연구를 지원하기 위해 공개되어 있습니다.
English
The rapid advancement of large language models(LLMs) has intensified the need for domain and culture specific evaluation. Existing benchmarks are largely Anglocentric and domain-agnostic, limiting their applicability to India-centric contexts. To address this gap, we introduce BhashaBench V1, the first domain-specific, multi-task, bilingual benchmark focusing on critical Indic knowledge systems. BhashaBench V1 contains 74,166 meticulously curated question-answer pairs, with 52,494 in English and 21,672 in Hindi, sourced from authentic government and domain-specific exams. It spans four major domains: Agriculture, Legal, Finance, and Ayurveda, comprising 90+ subdomains and covering 500+ topics, enabling fine-grained evaluation. Evaluation of 29+ LLMs reveals significant domain and language specific performance gaps, with especially large disparities in low-resource domains. For instance, GPT-4o achieves 76.49% overall accuracy in Legal but only 59.74% in Ayurveda. Models consistently perform better on English content compared to Hindi across all domains. Subdomain-level analysis shows that areas such as Cyber Law, International Finance perform relatively well, while Panchakarma, Seed Science, and Human Rights remain notably weak. BhashaBench V1 provides a comprehensive dataset for evaluating large language models across India's diverse knowledge domains. It enables assessment of models' ability to integrate domain-specific knowledge with bilingual understanding. All code, benchmarks, and resources are publicly available to support open research.
PDF31December 2, 2025