Eka-Eval : Un cadre d'évaluation complet pour les grands modèles de langage dans les langues indiennes
Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages
July 2, 2025
Auteurs: Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal, Mayank Singh
cs.AI
Résumé
L'évolution rapide des modèles de langage de grande taille (LLMs) a accentué la nécessité de cadres d'évaluation qui dépassent les benchmarks centrés sur l'anglais et répondent aux exigences des régions linguistiquement diversifiées comme l'Inde. Nous présentons EKA-EVAL, un cadre d'évaluation unifié et prêt pour la production, qui intègre plus de 35 benchmarks, dont 10 ensembles de données spécifiques à l'Inde, couvrant des catégories telles que le raisonnement, les mathématiques, l'utilisation d'outils, la compréhension de contextes longs et la compréhension de lecture. Par rapport aux outils d'évaluation existants pour les langues indiennes, EKA-EVAL offre une couverture de benchmarks plus large, avec un support intégré pour l'inférence distribuée, la quantification et l'utilisation multi-GPU. Notre comparaison systématique positionne EKA-EVAL comme la première suite d'évaluation de bout en bout et extensible, conçue à la fois pour les LLMs globaux et indiens, réduisant considérablement les obstacles au benchmarking multilingue. Le cadre est open-source et disponible publiquement à l'adresse https://github.com/lingo-iitgn/eka-eval et fait partie de l'initiative EKA en cours (https://eka.soket.ai), qui vise à s'étendre à plus de 100 benchmarks et à établir un écosystème d'évaluation multilingue robuste pour les LLMs.
English
The rapid advancement of Large Language Models (LLMs) has intensified the
need for evaluation frameworks that go beyond English centric benchmarks and
address the requirements of linguistically diverse regions such as India. We
present EKA-EVAL, a unified and production-ready evaluation framework that
integrates over 35 benchmarks, including 10 Indic-specific datasets, spanning
categories like reasoning, mathematics, tool use, long-context understanding,
and reading comprehension. Compared to existing Indian language evaluation
tools, EKA-EVAL offers broader benchmark coverage, with built-in support for
distributed inference, quantization, and multi-GPU usage. Our systematic
comparison positions EKA-EVAL as the first end-to-end, extensible evaluation
suite tailored for both global and Indic LLMs, significantly lowering the
barrier to multilingual benchmarking. The framework is open-source and publicly
available at https://github.com/lingo-iitgn/ eka-eval and a part of ongoing EKA
initiative (https://eka.soket.ai), which aims to scale up to over 100
benchmarks and establish a robust, multilingual evaluation ecosystem for LLMs.