ChatPaper.aiChatPaper

BhashaBench V1: Um Benchmark Abrangente para o Quadrante de Domínios Índicos

BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

October 29, 2025
Autores: Vijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan
cs.AI

Resumo

O rápido avanço dos grandes modelos de linguagem (LLMs) intensificou a necessidade de avaliação específica por domínio e cultura. Os benchmarks existentes são largamente anglocentrados e agnósticos de domínio, limitando sua aplicabilidade em contextos centrados na Índia. Para preencher essa lacuna, apresentamos o BhashaBench V1, o primeiro benchmark bilíngue, multidisciplinar e específico de domínio focado em sistemas críticos de conhecimento indianos. O BhashaBench V1 contém 74.166 pares pergunta-resposta meticulosamente curados, sendo 52.494 em inglês e 21.672 em hindi, obtidos a partir de exames governamentais autênticos e específicos de domínio. Ele abrange quatro domínios principais: Agricultura, Jurídico, Finanças e Ayurveda, compreendendo mais de 90 subdomínios e cobrindo mais de 500 tópicos, permitindo uma avaliação refinada. A avaliação de mais de 29 LLMs revela lacunas significativas de desempenho específicas por domínio e idioma, com disparidades especialmente grandes em domínios de baixos recursos. Por exemplo, o GPT-4o alcança 76,49% de precisão geral no domínio Jurídico, mas apenas 59,74% em Ayurveda. Os modelos apresentam desempenho consistentemente melhor em conteúdo em inglês em comparação com o hindi em todos os domínios. A análise em nível de subdomínio mostra que áreas como Direito Cibernético e Finanças Internacionais têm desempenho relativamente bom, enquanto Panchakarma, Ciência de Sementes e Direitos Humanos permanecem notavelmente fracas. O BhashaBench V1 fornece um conjunto de dados abrangente para avaliar grandes modelos de linguagem nos diversos domínios do conhecimento da Índia. Ele permite avaliar a capacidade dos modelos de integrar conhecimento específico do domínio com compreensão bilíngue. Todo o código, benchmarks e recursos estão publicamente disponíveis para apoiar a pesquisa aberta.
English
The rapid advancement of large language models(LLMs) has intensified the need for domain and culture specific evaluation. Existing benchmarks are largely Anglocentric and domain-agnostic, limiting their applicability to India-centric contexts. To address this gap, we introduce BhashaBench V1, the first domain-specific, multi-task, bilingual benchmark focusing on critical Indic knowledge systems. BhashaBench V1 contains 74,166 meticulously curated question-answer pairs, with 52,494 in English and 21,672 in Hindi, sourced from authentic government and domain-specific exams. It spans four major domains: Agriculture, Legal, Finance, and Ayurveda, comprising 90+ subdomains and covering 500+ topics, enabling fine-grained evaluation. Evaluation of 29+ LLMs reveals significant domain and language specific performance gaps, with especially large disparities in low-resource domains. For instance, GPT-4o achieves 76.49% overall accuracy in Legal but only 59.74% in Ayurveda. Models consistently perform better on English content compared to Hindi across all domains. Subdomain-level analysis shows that areas such as Cyber Law, International Finance perform relatively well, while Panchakarma, Seed Science, and Human Rights remain notably weak. BhashaBench V1 provides a comprehensive dataset for evaluating large language models across India's diverse knowledge domains. It enables assessment of models' ability to integrate domain-specific knowledge with bilingual understanding. All code, benchmarks, and resources are publicly available to support open research.
PDF41February 7, 2026