ChatPaper.aiChatPaper

IndicParam: Punto de referencia para evaluar LLM en lenguas indicas de bajos recursos

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

November 29, 2025
Autores: Ayush Maheshwari, Kaushal Sharma, Vivek Patel, Aditya Maheshwari
cs.AI

Resumen

Si bien los grandes modelos de lenguaje sobresalen en tareas multilingües de alta disponibilidad de recursos, las lenguas índicas con recursos escasos y extremadamente escasos siguen estando severamente subevaluadas. Presentamos IndicParam, un benchmark curado manualmente que contiene más de 13,000 preguntas de opción múltiple que cubren 11 de estas lenguas (Nepalí, Gujarati, Marathi, Odia como lenguas de recursos escasos; Dogri, Maithili, Rajasthani, Sánscrito, Bodo, Santali, Konkani como lenguas de recursos extremadamente escasos) más un conjunto de código mixto Sánscrito-Inglés. Evaluamos 19 LLMs, tanto propietarios como de pesos abiertos, lo que revela que incluso el mejor desempeño, GPT-5, alcanza solo un 45.0% de precisión promedio, seguido por DeepSeek-3.2 (43.1%) y Claude-4.5 (42.7%). Además, etiquetamos cada pregunta como orientada al conocimiento o puramente lingüística para discriminar el recuerdo factual de la competencia gramatical. Asimismo, evaluamos la capacidad de los LLMs para manejar diversos formatos de preguntas —como emparejamiento basado en listas, pares de afirmación-razón y ordenamiento de secuencias— junto con las preguntas de opción múltiple convencionales. IndicParam proporciona información valiosa sobre las limitaciones de la transferencia transcultural y establece un punto de referencia desafiante para las lenguas índicas. El conjunto de datos está disponible en https://huggingface.co/datasets/bharatgenai/IndicParam. Los scripts para ejecutar el benchmark se encuentran en https://github.com/ayushbits/IndicParam.
English
While large language models excel on high-resource multilingual tasks, low- and extremely low-resource Indic languages remain severely under-evaluated. We present IndicParam, a human-curated benchmark of over 13,000 multiple-choice questions covering 11 such languages (Nepali, Gujarati, Marathi, Odia as low-resource; Dogri, Maithili, Rajasthani, Sanskrit, Bodo, Santali, Konkani as extremely low-resource) plus Sanskrit-English code-mixed set. We evaluated 19 LLMs, both proprietary and open-weights, which reveals that even the top-performing GPT-5 reaches only 45.0% average accuracy, followed by DeepSeek-3.2 (43.1) and Claude-4.5 (42.7). We additionally label each question as knowledge-oriented or purely linguistic to discriminate factual recall from grammatical proficiency. Further, we assess the ability of LLMs to handle diverse question formats-such as list-based matching, assertion-reason pairs, and sequence ordering-alongside conventional multiple-choice questions. IndicParam provides insights into limitations of cross-lingual transfer and establishes a challenging benchmark for Indic languages. The dataset is available at https://huggingface.co/datasets/bharatgenai/IndicParam. Scripts to run benchmark are present at https://github.com/ayushbits/IndicParam.
PDF11December 3, 2025