ChatPaper.aiChatPaper

IndicParam: Benchmark per valutare i LLM sulle lingue indic a bassa risorsa

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

November 29, 2025
Autori: Ayush Maheshwari, Kaushal Sharma, Vivek Patel, Aditya Maheshwari
cs.AI

Abstract

Sebbene i grandi modelli linguistici eccellano in attività multilingue ad alta disponibilità di risorse, le lingue indiche a bassa e bassissima risorsa rimangono gravemente sottovalutate. Presentiamo IndicParam, un benchmark curato manualmente composto da oltre 13.000 domande a scelta multipla che copre 11 di queste lingue (Nepali, Gujarati, Marathi, Odia come a bassa risorsa; Dogri, Maithili, Rajasthani, Sanscrito, Bodo, Santali, Konkani come a bassissima risorsa) più un set di codice misto Sanscrito-Inglese. Abbiamo valutato 19 LLM, sia proprietari che open-weights, il che rivela che anche il miglior modello, GPT-5, raggiunge solo una precisione media del 45,0%, seguito da DeepSeek-3.2 (43,1) e Claude-4.5 (42,7). Inoltre, abbiamo classificato ogni domanda come orientata alla conoscenza o puramente linguistica per distinguere il richiamo fattuale dalla competenza grammaticale. Inoltre, valutiamo la capacità degli LLM di gestire diversi formati di domanda - come l'abbinamento basato su elenchi, coppie asserzione-ragionamento e ordinamento di sequenze - insieme alle tradizionali domande a scelta multipla. IndicParam fornisce spunti sulle limitazioni del trasferimento cross-linguale e stabilisce un benchmark impegnativo per le lingue indiche. Il dataset è disponibile all'indirizzo https://huggingface.co/datasets/bharatgenai/IndicParam. Gli script per eseguire il benchmark sono presenti all'indirizzo https://github.com/ayushbits/IndicParam.
English
While large language models excel on high-resource multilingual tasks, low- and extremely low-resource Indic languages remain severely under-evaluated. We present IndicParam, a human-curated benchmark of over 13,000 multiple-choice questions covering 11 such languages (Nepali, Gujarati, Marathi, Odia as low-resource; Dogri, Maithili, Rajasthani, Sanskrit, Bodo, Santali, Konkani as extremely low-resource) plus Sanskrit-English code-mixed set. We evaluated 19 LLMs, both proprietary and open-weights, which reveals that even the top-performing GPT-5 reaches only 45.0% average accuracy, followed by DeepSeek-3.2 (43.1) and Claude-4.5 (42.7). We additionally label each question as knowledge-oriented or purely linguistic to discriminate factual recall from grammatical proficiency. Further, we assess the ability of LLMs to handle diverse question formats-such as list-based matching, assertion-reason pairs, and sequence ordering-alongside conventional multiple-choice questions. IndicParam provides insights into limitations of cross-lingual transfer and establishes a challenging benchmark for Indic languages. The dataset is available at https://huggingface.co/datasets/bharatgenai/IndicParam. Scripts to run benchmark are present at https://github.com/ayushbits/IndicParam.
PDF11December 3, 2025