IndicParam: Benchmark voor de evaluatie van LLM's op Indic-talen met weinig middelen
IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages
November 29, 2025
Auteurs: Ayush Maheshwari, Kaushal Sharma, Vivek Patel, Aditya Maheshwari
cs.AI
Samenvatting
Hoewel grote taalmodellen uitblinken in meertalige taken met veel bronnen, blijven talen met weinig en extreem weinig bronnen in India ernstig ondergeëvalueerd. Wij presenteren IndicParam, een door mensen samengestelde benchmark met meer dan 13.000 multiple-choicevragen die 11 van dergelijke talen bestrijkt (Nepalees, Gujarati, Marathi, Odia als talen met weinig bronnen; Dogri, Maithili, Rajasthani, Sanskriet, Bodo, Santali, Konkani als talen met extreem weinig bronnen) plus een Sanskriet-Engelse code-mixed set. Wij evalueerden 19 LLM's, zowel propriëtair als open-weight, wat aantoont dat zelfs de best presterende GPT-5 slechts een gemiddelde nauwkeurigheid van 45,0% bereikt, gevolgd door DeepSeek-3.2 (43,1) en Claude-4.5 (42,7). Daarnaast categoriseren wij elke vraag als kennisgericht of puur linguïstisch om feitelijke recall te onderscheiden van grammaticale vaardigheid. Verder beoordelen wij het vermogen van LLM's om diverse vraagformaten aan te kunnen - zoals matching op basis van lijsten, bewering-redenparen en sequentie-ordening - naast conventionele multiple-choicevragen. IndicParam biedt inzichten in de beperkingen van cross-linguale transfer en vestigt een uitdagende benchmark voor Indiase talen. De dataset is beschikbaar op https://huggingface.co/datasets/bharatgenai/IndicParam. Scripts om de benchmark uit te voeren zijn te vinden op https://github.com/ayushbits/IndicParam.
English
While large language models excel on high-resource multilingual tasks, low- and extremely low-resource Indic languages remain severely under-evaluated. We present IndicParam, a human-curated benchmark of over 13,000 multiple-choice questions covering 11 such languages (Nepali, Gujarati, Marathi, Odia as low-resource; Dogri, Maithili, Rajasthani, Sanskrit, Bodo, Santali, Konkani as extremely low-resource) plus Sanskrit-English code-mixed set. We evaluated 19 LLMs, both proprietary and open-weights, which reveals that even the top-performing GPT-5 reaches only 45.0% average accuracy, followed by DeepSeek-3.2 (43.1) and Claude-4.5 (42.7). We additionally label each question as knowledge-oriented or purely linguistic to discriminate factual recall from grammatical proficiency. Further, we assess the ability of LLMs to handle diverse question formats-such as list-based matching, assertion-reason pairs, and sequence ordering-alongside conventional multiple-choice questions. IndicParam provides insights into limitations of cross-lingual transfer and establishes a challenging benchmark for Indic languages. The dataset is available at https://huggingface.co/datasets/bharatgenai/IndicParam. Scripts to run benchmark are present at https://github.com/ayushbits/IndicParam.