IndicParam: Benchmark para avaliar LLMs em Línguas Indicas de Baixos Recursos

Resumo

Embora os modelos de linguagem de grande escala se destaquem em tarefas multilingues de alta disponibilidade de recursos, as línguas indianas de baixo e extremamente baixo recurso permanecem severamente subavaliadas. Apresentamos o IndicParam, um benchmark curado por humanos composto por mais de 13.000 questões de múltipla escolha abrangendo 11 dessas línguas (Nepali, Gujarati, Marathi, Odia como de baixo recurso; Dogri, Maithili, Rajasthani, Sânscrito, Bodo, Santali, Konkani como de extremamente baixo recurso) além de um conjunto de código misto Sânscrito-Inglês. Avaliamos 19 LLMs, tanto proprietários quanto de pesos abertos, o que revela que mesmo o GPT-5, de melhor desempenho, atinge apenas 45,0% de precisão média, seguido pelo DeepSeek-3.2 (43,1%) e Claude-4.5 (42,7%). Adicionalmente, classificamos cada questão como orientada ao conhecimento ou puramente linguística para discriminar a recordação factual da proficiência gramatical. Além disso, avaliamos a capacidade dos LLMs de lidar com diversos formatos de questão — como correspondência baseada em lista, pares de afirmação-razão e ordenação de sequência — juntamente com questões de múltipla escolha convencionais. O IndicParam fornece insights sobre as limitações da transferência transcultural e estabelece um benchmark desafiador para as línguas indianas. O conjunto de dados está disponível em https://huggingface.co/datasets/bharatgenai/IndicParam. Os scripts para executar o benchmark estão presentes em https://github.com/ayushbits/IndicParam.

English

While large language models excel on high-resource multilingual tasks, low- and extremely low-resource Indic languages remain severely under-evaluated. We present IndicParam, a human-curated benchmark of over 13,000 multiple-choice questions covering 11 such languages (Nepali, Gujarati, Marathi, Odia as low-resource; Dogri, Maithili, Rajasthani, Sanskrit, Bodo, Santali, Konkani as extremely low-resource) plus Sanskrit-English code-mixed set. We evaluated 19 LLMs, both proprietary and open-weights, which reveals that even the top-performing GPT-5 reaches only 45.0% average accuracy, followed by DeepSeek-3.2 (43.1) and Claude-4.5 (42.7). We additionally label each question as knowledge-oriented or purely linguistic to discriminate factual recall from grammatical proficiency. Further, we assess the ability of LLMs to handle diverse question formats-such as list-based matching, assertion-reason pairs, and sequence ordering-alongside conventional multiple-choice questions. IndicParam provides insights into limitations of cross-lingual transfer and establishes a challenging benchmark for Indic languages. The dataset is available at https://huggingface.co/datasets/bharatgenai/IndicParam. Scripts to run benchmark are present at https://github.com/ayushbits/IndicParam.

IndicParam: Benchmark para avaliar LLMs em Línguas Indicas de Baixos Recursos

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

Resumo

Support