Eka-Eval: Un Marco de Evaluación Integral para Modelos de Lenguaje a Gran Escala en Idiomas Indios
Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages
July 2, 2025
Autores: Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal, Mayank Singh
cs.AI
Resumen
El rápido avance de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha intensificado la necesidad de marcos de evaluación que vayan más allá de los puntos de referencia centrados en el inglés y aborden los requisitos de regiones lingüísticamente diversas como la India. Presentamos EKA-EVAL, un marco de evaluación unificado y listo para producción que integra más de 35 puntos de referencia, incluyendo 10 conjuntos de datos específicos para lenguas índicas, abarcando categorías como razonamiento, matemáticas, uso de herramientas, comprensión de contexto largo y comprensión lectora. En comparación con las herramientas de evaluación existentes para lenguas indias, EKA-EVAL ofrece una cobertura más amplia de puntos de referencia, con soporte integrado para inferencia distribuida, cuantización y uso de múltiples GPU. Nuestra comparación sistemática posiciona a EKA-EVAL como la primera suite de evaluación integral y extensible diseñada tanto para LLMs globales como para los específicos de lenguas índicas, reduciendo significativamente la barrera para la evaluación multilingüe. El marco es de código abierto y está disponible públicamente en https://github.com/lingo-iitgn/eka-eval y forma parte de la iniciativa EKA en curso (https://eka.soket.ai), que tiene como objetivo escalar a más de 100 puntos de referencia y establecer un ecosistema de evaluación multilingüe robusto para LLMs.
English
The rapid advancement of Large Language Models (LLMs) has intensified the
need for evaluation frameworks that go beyond English centric benchmarks and
address the requirements of linguistically diverse regions such as India. We
present EKA-EVAL, a unified and production-ready evaluation framework that
integrates over 35 benchmarks, including 10 Indic-specific datasets, spanning
categories like reasoning, mathematics, tool use, long-context understanding,
and reading comprehension. Compared to existing Indian language evaluation
tools, EKA-EVAL offers broader benchmark coverage, with built-in support for
distributed inference, quantization, and multi-GPU usage. Our systematic
comparison positions EKA-EVAL as the first end-to-end, extensible evaluation
suite tailored for both global and Indic LLMs, significantly lowering the
barrier to multilingual benchmarking. The framework is open-source and publicly
available at https://github.com/lingo-iitgn/ eka-eval and a part of ongoing EKA
initiative (https://eka.soket.ai), which aims to scale up to over 100
benchmarks and establish a robust, multilingual evaluation ecosystem for LLMs.