IndicParam: 低資源インド系言語における大規模言語モデルの評価ベンチマーク
IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages
November 29, 2025
著者: Ayush Maheshwari, Kaushal Sharma, Vivek Patel, Aditya Maheshwari
cs.AI
要旨
大規模言語モデルは高リソース多言語タスクでは優れた性能を示すが、低リソース及び極少リソースのインド系言語については、依然として評価が著しく不足している。本論文では、11の言語(低リソース:ネパール語、グジャラート語、マラーティー語、オディア語、極少リソース:ドーグリー語、マイティリー語、ラージャスターン語、サンスクリット、ボド語、サンターリー語、コンカニ語)に加え、サンスクリットと英語のコード混合データセットを対象とした、人間による精選を経た13,000問以上の多肢選択式問題から構成されるベンチマーク「IndicParam」を提案する。19のプロプライエタリ及びオープンウェイトの大規模言語モデルを評価した結果、最高性能のGPT-5でも平均正解率は45.0%に留まり、DeepSeek-3.2(43.1%)、Claude-4.5(42.7%)が続くことが明らかになった。さらに、各問題を知識指向型と純粋言語学型に分類し、事実の記憶力と文法的熟達度を区別して評価する。加えて、従来の多肢選択式問題に加え、リストに基づくマッチング、主張と理由のペア、順序付けなど、多様な問題形式を扱う能力を評価する。IndicParamは、言語間転移の限界に関する知見を提供し、インド系言語における挑戦的なベンチマークを確立するものである。データセットは https://huggingface.co/datasets/bharatgenai/IndicParam で公開されている。ベンチマーク実行用スクリプトは https://github.com/ayushbits/IndicParam で提供されている。
English
While large language models excel on high-resource multilingual tasks, low- and extremely low-resource Indic languages remain severely under-evaluated. We present IndicParam, a human-curated benchmark of over 13,000 multiple-choice questions covering 11 such languages (Nepali, Gujarati, Marathi, Odia as low-resource; Dogri, Maithili, Rajasthani, Sanskrit, Bodo, Santali, Konkani as extremely low-resource) plus Sanskrit-English code-mixed set. We evaluated 19 LLMs, both proprietary and open-weights, which reveals that even the top-performing GPT-5 reaches only 45.0% average accuracy, followed by DeepSeek-3.2 (43.1) and Claude-4.5 (42.7). We additionally label each question as knowledge-oriented or purely linguistic to discriminate factual recall from grammatical proficiency. Further, we assess the ability of LLMs to handle diverse question formats-such as list-based matching, assertion-reason pairs, and sequence ordering-alongside conventional multiple-choice questions. IndicParam provides insights into limitations of cross-lingual transfer and establishes a challenging benchmark for Indic languages. The dataset is available at https://huggingface.co/datasets/bharatgenai/IndicParam. Scripts to run benchmark are present at https://github.com/ayushbits/IndicParam.