ChatPaper.aiChatPaper

IndicParam: Бенчмарк для оценки больших языковых моделей на малоресурсных индийских языках

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

November 29, 2025
Авторы: Ayush Maheshwari, Kaushal Sharma, Vivek Patel, Aditya Maheshwari
cs.AI

Аннотация

Хотя большие языковые модели демонстрируют превосходные результаты в задачах с высокоресурсными языками, языки Индии с низким и крайне низким уровнем ресурсов остаются серьёзно недооцененными. Мы представляем IndicParam — созданный экспертами эталонный набор данных, содержащий более 13 000 вопросов с множественным выбором, охватывающих 11 таких языков (непали, гуджарати, маратхи, одия — с низким уровнем ресурсов; догри, майтхили, раджастхани, санскрит, бодо, сантали, конкани — с крайне низким) плюс набор данных с код-свитчингом санскрит-английский. Мы оценили 19 языковых моделей, как проприетарных, так и с открытыми весами, что показало: даже лучшая модель GPT-5 достигает средней точности лишь 45,0%, за ней следуют DeepSeek-3.2 (43,1%) и Claude-4.5 (42,7%). Дополнительно мы маркировали каждый вопрос как ориентированный на знания или чисто лингвистический, чтобы разграничить фактологическое воспроизведение и грамматическую компетентность. Кроме того, мы оценили способность моделей обрабатывать различные форматы вопросов — такие как сопоставление по спискам, пары «утверждение-обоснование» и упорядочивание последовательностей — наряду с традиционными вопросами с множественным выбором. IndicParam позволяет выявить ограничения кросс-лингвального переноса и устанавливает сложный эталон для языков Индии. Набор данных доступен по адресу https://huggingface.co/datasets/bharatgenai/IndicParam. Скрипты для запуска тестирования находятся по адресу https://github.com/ayushbits/IndicParam.
English
While large language models excel on high-resource multilingual tasks, low- and extremely low-resource Indic languages remain severely under-evaluated. We present IndicParam, a human-curated benchmark of over 13,000 multiple-choice questions covering 11 such languages (Nepali, Gujarati, Marathi, Odia as low-resource; Dogri, Maithili, Rajasthani, Sanskrit, Bodo, Santali, Konkani as extremely low-resource) plus Sanskrit-English code-mixed set. We evaluated 19 LLMs, both proprietary and open-weights, which reveals that even the top-performing GPT-5 reaches only 45.0% average accuracy, followed by DeepSeek-3.2 (43.1) and Claude-4.5 (42.7). We additionally label each question as knowledge-oriented or purely linguistic to discriminate factual recall from grammatical proficiency. Further, we assess the ability of LLMs to handle diverse question formats-such as list-based matching, assertion-reason pairs, and sequence ordering-alongside conventional multiple-choice questions. IndicParam provides insights into limitations of cross-lingual transfer and establishes a challenging benchmark for Indic languages. The dataset is available at https://huggingface.co/datasets/bharatgenai/IndicParam. Scripts to run benchmark are present at https://github.com/ayushbits/IndicParam.
PDF11December 3, 2025