ChatPaper.aiChatPaper

IndicParam: 저자원 인도 언어에 대한 LLM 성능 평가 벤치마크

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

November 29, 2025
저자: Ayush Maheshwari, Kaushal Sharma, Vivek Patel, Aditya Maheshwari
cs.AI

초록

대규모 언어 모델이 고자원 다국어 작업에서는 우수한 성능을 보이지만, 저자원 및 극저자원 인도 언어들은 여전히 심각하게 평가가 부족한 실정입니다. 본 논문은 이러한 언어 11개(저자원: 네팔어, 구자라트어, 마라티어, 오디아어 / 극저원: 도그리어, 마이틸리어, 라자스탄어, 산스크리트어, 보도어, 산탈리어, 콘칸어)와 산스크리트어-영어 코드 혼합 세트를 포함하여 인간이 직접 선별한 13,000개 이상의 객관식 질문으로 구성된 벤치마크인 IndicParam을 소개합니다. 사유 및 오픈 가중치 모델을 포함한 19개의 LLM을 평가한 결과, 최고 성능을 보인 GPT-5도 평균 정확도가 45.0%에 그쳤으며,其后를 DeepSeek-3.2(43.1%), Claude-4.5(42.7%)가 따랐습니다. 또한 각 질문을 지식 중심과 순수 언어학적으로 분류하여 사실 기억력과 문법 능력을 구별했습니다. 더 나아가 기존의 객관식 질문과 함께 목록 기반 매칭, 주장-근거 쌍, 순서 배열 등 다양한 질문 형식을 LLM이 처리하는 능력을 평가합니다. IndicParam은 언어 간 전이의 한계에 대한 통찰을 제공하고 인도 언어에 대한 도전적인 벤치마크를确立합니다. 데이터 세트는 https://huggingface.co/datasets/bharatgenai/IndicParam에서 확인할 수 있으며, 벤치마크 실행 스크립트는 https://github.com/ayushbits/IndicParam에서 확인할 수 있습니다.
English
While large language models excel on high-resource multilingual tasks, low- and extremely low-resource Indic languages remain severely under-evaluated. We present IndicParam, a human-curated benchmark of over 13,000 multiple-choice questions covering 11 such languages (Nepali, Gujarati, Marathi, Odia as low-resource; Dogri, Maithili, Rajasthani, Sanskrit, Bodo, Santali, Konkani as extremely low-resource) plus Sanskrit-English code-mixed set. We evaluated 19 LLMs, both proprietary and open-weights, which reveals that even the top-performing GPT-5 reaches only 45.0% average accuracy, followed by DeepSeek-3.2 (43.1) and Claude-4.5 (42.7). We additionally label each question as knowledge-oriented or purely linguistic to discriminate factual recall from grammatical proficiency. Further, we assess the ability of LLMs to handle diverse question formats-such as list-based matching, assertion-reason pairs, and sequence ordering-alongside conventional multiple-choice questions. IndicParam provides insights into limitations of cross-lingual transfer and establishes a challenging benchmark for Indic languages. The dataset is available at https://huggingface.co/datasets/bharatgenai/IndicParam. Scripts to run benchmark are present at https://github.com/ayushbits/IndicParam.
PDF11December 3, 2025