Eka-Eval: Un Marco de Evaluación Integral para Modelos de Lenguaje a Gran Escala en Idiomas Indios

Resumen

El rápido avance de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha intensificado la necesidad de marcos de evaluación que vayan más allá de los puntos de referencia centrados en el inglés y aborden los requisitos de regiones lingüísticamente diversas como la India. Presentamos EKA-EVAL, un marco de evaluación unificado y listo para producción que integra más de 35 puntos de referencia, incluyendo 10 conjuntos de datos específicos para lenguas índicas, abarcando categorías como razonamiento, matemáticas, uso de herramientas, comprensión de contexto largo y comprensión lectora. En comparación con las herramientas de evaluación existentes para lenguas indias, EKA-EVAL ofrece una cobertura más amplia de puntos de referencia, con soporte integrado para inferencia distribuida, cuantización y uso de múltiples GPU. Nuestra comparación sistemática posiciona a EKA-EVAL como la primera suite de evaluación integral y extensible diseñada tanto para LLMs globales como para los específicos de lenguas índicas, reduciendo significativamente la barrera para la evaluación multilingüe. El marco es de código abierto y está disponible públicamente en https://github.com/lingo-iitgn/eka-eval y forma parte de la iniciativa EKA en curso (https://eka.soket.ai), que tiene como objetivo escalar a más de 100 puntos de referencia y establecer un ecosistema de evaluación multilingüe robusto para LLMs.

English

The rapid advancement of Large Language Models (LLMs) has intensified the need for evaluation frameworks that go beyond English centric benchmarks and address the requirements of linguistically diverse regions such as India. We present EKA-EVAL, a unified and production-ready evaluation framework that integrates over 35 benchmarks, including 10 Indic-specific datasets, spanning categories like reasoning, mathematics, tool use, long-context understanding, and reading comprehension. Compared to existing Indian language evaluation tools, EKA-EVAL offers broader benchmark coverage, with built-in support for distributed inference, quantization, and multi-GPU usage. Our systematic comparison positions EKA-EVAL as the first end-to-end, extensible evaluation suite tailored for both global and Indic LLMs, significantly lowering the barrier to multilingual benchmarking. The framework is open-source and publicly available at https://github.com/lingo-iitgn/ eka-eval and a part of ongoing EKA initiative (https://eka.soket.ai), which aims to scale up to over 100 benchmarks and establish a robust, multilingual evaluation ecosystem for LLMs.

Eka-Eval: Un Marco de Evaluación Integral para Modelos de Lenguaje a Gran Escala en Idiomas Indios

Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages

Resumen

Support