ChatPaper.aiChatPaper

IndicParam: Benchmark zur Bewertung von LLMs für ressourcenschwache indische Sprachen

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

November 29, 2025
papers.authors: Ayush Maheshwari, Kaushal Sharma, Vivek Patel, Aditya Maheshwari
cs.AI

papers.abstract

Während große Sprachmodelle bei multilingualen Aufgaben mit hohen Ressourcen hervorragend abschneiden, bleiben Sprachressourcen-arme und extrem ressourcenarme indische Sprachen stark unterbewertet. Wir stellen IndicParam vor, einen von Menschen kuratierten Benchmark mit über 13.000 Multiple-Choice-Fragen, der 11 solcher Sprachen abdeckt (Nepali, Gujarati, Marathi, Odia als ressourcenarm; Dogri, Maithili, Rajasthani, Sanskrit, Bodo, Santali, Konkani als extrem ressourcenarm) plus einen Sanskrit-Englisch-Code-Mixed-Datensatz. Wir evaluierten 19 LLMs, sowohl proprietäre als auch Open-Weight-Modelle, was zeigt, dass selbst das leistungsstärkste GPT-5 nur auf eine durchschnittliche Genauigkeit von 45,0 % kommt, gefolgt von DeepSeek-3.2 (43,1 %) und Claude-4.5 (42,7 %). Zusätzlich kategorisieren wir jede Frage als wissensorientiert oder rein linguistisch, um faktisches Erinnern von grammatikalischer Kompetenz zu unterscheiden. Des Weiteren bewerten wir die Fähigkeit der LLMs, verschiedene Frageformate – wie listenbasiertes Matching, Assertion-Reason-Paare und Sequenzordnung – neben konventionellen Multiple-Choice-Fragen zu bewältigen. IndicParam liefert Einblicke in die Grenzen des cross-lingualen Transfers und etabliert einen anspruchsvollen Benchmark für indische Sprachen. Der Datensatz ist verfügbar unter https://huggingface.co/datasets/bharatgenai/IndicParam. Skripte zum Ausführen des Benchmarks befinden sich unter https://github.com/ayushbits/IndicParam.
English
While large language models excel on high-resource multilingual tasks, low- and extremely low-resource Indic languages remain severely under-evaluated. We present IndicParam, a human-curated benchmark of over 13,000 multiple-choice questions covering 11 such languages (Nepali, Gujarati, Marathi, Odia as low-resource; Dogri, Maithili, Rajasthani, Sanskrit, Bodo, Santali, Konkani as extremely low-resource) plus Sanskrit-English code-mixed set. We evaluated 19 LLMs, both proprietary and open-weights, which reveals that even the top-performing GPT-5 reaches only 45.0% average accuracy, followed by DeepSeek-3.2 (43.1) and Claude-4.5 (42.7). We additionally label each question as knowledge-oriented or purely linguistic to discriminate factual recall from grammatical proficiency. Further, we assess the ability of LLMs to handle diverse question formats-such as list-based matching, assertion-reason pairs, and sequence ordering-alongside conventional multiple-choice questions. IndicParam provides insights into limitations of cross-lingual transfer and establishes a challenging benchmark for Indic languages. The dataset is available at https://huggingface.co/datasets/bharatgenai/IndicParam. Scripts to run benchmark are present at https://github.com/ayushbits/IndicParam.
PDF11December 3, 2025