IndicParam : Benchmark pour évaluer les LLM sur les langues indiennes peu dotées
IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages
November 29, 2025
papers.authors: Ayush Maheshwari, Kaushal Sharma, Vivek Patel, Aditya Maheshwari
cs.AI
papers.abstract
Bien que les grands modèles de langage excellent dans les tâches multilingues à ressources abondantes, les langues indiennes à ressources faibles et extrêmement faibles restent gravement sous-évaluées. Nous présentons IndicParam, un benchmark minutieusement annoté manuellement comprenant plus de 13 000 questions à choix multiples couvrant 11 de ces langues (le népalais, le gujarati, le marathi et l'odia comme langues à ressources faibles ; le dogri, le maïthili, le rajasthani, le sanskrit, le bodo, le santali et le konkani comme langues à ressources extrêmement faibles), ainsi qu'un ensemble de données en code-mixte sanskrit-anglais. Nous avons évalué 19 LLM, à la fois propriétaires et open-weights, ce qui révèle que même le meilleur modèle, GPT-5, n'atteint qu'une précision moyenne de 45,0 %, suivi par DeepSeek-3.2 (43,1 %) et Claude-4.5 (42,7 %). Nous avons en outre étiqueté chaque question comme étant orientée connaissance ou purement linguistique pour distinguer le rappel factuel de la compétence grammaticale. De plus, nous évaluons la capacité des LLM à traiter divers formats de questions - tels que l'appariement basé sur des listes, les paires assertion-raison et l'ordonnancement de séquences - parallèlement aux questions à choix multiples conventionnelles. IndicParam offre un aperçu des limites du transfert translinguistique et établit un benchmark exigeant pour les langues indiennes. Le jeu de données est disponible à l'adresse https://huggingface.co/datasets/bharatgenai/IndicParam. Les scripts pour exécuter le benchmark sont disponibles à l'adresse https://github.com/ayushbits/IndicParam.
English
While large language models excel on high-resource multilingual tasks, low- and extremely low-resource Indic languages remain severely under-evaluated. We present IndicParam, a human-curated benchmark of over 13,000 multiple-choice questions covering 11 such languages (Nepali, Gujarati, Marathi, Odia as low-resource; Dogri, Maithili, Rajasthani, Sanskrit, Bodo, Santali, Konkani as extremely low-resource) plus Sanskrit-English code-mixed set. We evaluated 19 LLMs, both proprietary and open-weights, which reveals that even the top-performing GPT-5 reaches only 45.0% average accuracy, followed by DeepSeek-3.2 (43.1) and Claude-4.5 (42.7). We additionally label each question as knowledge-oriented or purely linguistic to discriminate factual recall from grammatical proficiency. Further, we assess the ability of LLMs to handle diverse question formats-such as list-based matching, assertion-reason pairs, and sequence ordering-alongside conventional multiple-choice questions. IndicParam provides insights into limitations of cross-lingual transfer and establishes a challenging benchmark for Indic languages. The dataset is available at https://huggingface.co/datasets/bharatgenai/IndicParam. Scripts to run benchmark are present at https://github.com/ayushbits/IndicParam.