Eka-Eval: Een Uitgebreid Evaluatiekader voor Grote Taalmodellen in Indiase Talen
Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages
July 2, 2025
Auteurs: Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal, Mayank Singh
cs.AI
Samenvatting
De snelle vooruitgang van Large Language Models (LLMs) heeft de behoefte aan evaluatieframeworks die verder gaan dan Engelstalige benchmarks en tegemoetkomen aan de eisen van taalkundig diverse regio's zoals India, versterkt. Wij presenteren EKA-EVAL, een uniform en productieklaar evaluatieframework dat meer dan 35 benchmarks integreert, waaronder 10 Indic-specifieke datasets, die categorieën zoals redeneren, wiskunde, toolgebruik, langetermijncontextbegrip en leesbegrip omvatten. In vergelijking met bestaande evaluatietools voor Indiase talen biedt EKA-EVAL een bredere dekking van benchmarks, met ingebouwde ondersteuning voor gedistribueerde inferentie, kwantisatie en multi-GPU-gebruik. Onze systematische vergelijking positioneert EKA-EVAL als de eerste end-to-end, uitbreidbare evaluatiesuite die is afgestemd op zowel globale als Indic LLMs, waardoor de drempel voor meertalige benchmarking aanzienlijk wordt verlaagd. Het framework is open-source en publiekelijk beschikbaar op https://github.com/lingo-iitgn/eka-eval en maakt deel uit van het lopende EKA-initiatief (https://eka.soket.ai), dat tot doel heeft uit te breiden naar meer dan 100 benchmarks en een robuust, meertalig evaluatie-ecosysteem voor LLMs te creëren.
English
The rapid advancement of Large Language Models (LLMs) has intensified the
need for evaluation frameworks that go beyond English centric benchmarks and
address the requirements of linguistically diverse regions such as India. We
present EKA-EVAL, a unified and production-ready evaluation framework that
integrates over 35 benchmarks, including 10 Indic-specific datasets, spanning
categories like reasoning, mathematics, tool use, long-context understanding,
and reading comprehension. Compared to existing Indian language evaluation
tools, EKA-EVAL offers broader benchmark coverage, with built-in support for
distributed inference, quantization, and multi-GPU usage. Our systematic
comparison positions EKA-EVAL as the first end-to-end, extensible evaluation
suite tailored for both global and Indic LLMs, significantly lowering the
barrier to multilingual benchmarking. The framework is open-source and publicly
available at https://github.com/lingo-iitgn/ eka-eval and a part of ongoing EKA
initiative (https://eka.soket.ai), which aims to scale up to over 100
benchmarks and establish a robust, multilingual evaluation ecosystem for LLMs.