ChatPaper.aiChatPaper

Eka-Eval: Комплексная система оценки крупных языковых моделей для индийских языков

Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages

July 2, 2025
Авторы: Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal, Mayank Singh
cs.AI

Аннотация

Быстрое развитие крупных языковых моделей (LLM) усилило необходимость в системах оценки, которые выходят за рамки англоцентричных тестов и учитывают потребности лингвистически разнообразных регионов, таких как Индия. Мы представляем EKA-EVAL — унифицированную и готовую к использованию систему оценки, которая интегрирует более 35 тестов, включая 10 наборов данных, специфичных для индийских языков, охватывающих такие категории, как логическое мышление, математика, использование инструментов, понимание длинных контекстов и чтение. По сравнению с существующими инструментами оценки индийских языков, EKA-EVAL предлагает более широкий охват тестов, с встроенной поддержкой распределенного вывода, квантования и использования нескольких графических процессоров. Наше систематическое сравнение позиционирует EKA-EVAL как первую сквозную, расширяемую систему оценки, адаптированную как для глобальных, так и для индийских LLM, значительно снижая барьер для многоязычного тестирования. Фреймворк является открытым и доступен по адресу https://github.com/lingo-iitgn/eka-eval, а также является частью текущей инициативы EKA (https://eka.soket.ai), которая направлена на масштабирование до более чем 100 тестов и создание устойчивой многоязычной экосистемы оценки для LLM.
English
The rapid advancement of Large Language Models (LLMs) has intensified the need for evaluation frameworks that go beyond English centric benchmarks and address the requirements of linguistically diverse regions such as India. We present EKA-EVAL, a unified and production-ready evaluation framework that integrates over 35 benchmarks, including 10 Indic-specific datasets, spanning categories like reasoning, mathematics, tool use, long-context understanding, and reading comprehension. Compared to existing Indian language evaluation tools, EKA-EVAL offers broader benchmark coverage, with built-in support for distributed inference, quantization, and multi-GPU usage. Our systematic comparison positions EKA-EVAL as the first end-to-end, extensible evaluation suite tailored for both global and Indic LLMs, significantly lowering the barrier to multilingual benchmarking. The framework is open-source and publicly available at https://github.com/lingo-iitgn/ eka-eval and a part of ongoing EKA initiative (https://eka.soket.ai), which aims to scale up to over 100 benchmarks and establish a robust, multilingual evaluation ecosystem for LLMs.
PDF52July 7, 2025