Eka-Eval: Ein umfassendes Bewertungsframework für große Sprachmodelle in indischen Sprachen
Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages
July 2, 2025
Autoren: Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal, Mayank Singh
cs.AI
Zusammenfassung
Die rasante Weiterentwicklung von Large Language Models (LLMs) hat den Bedarf an Bewertungsrahmen verstärkt, die über englischzentrierte Benchmarks hinausgehen und die Anforderungen linguistisch vielfältiger Regionen wie Indien adressieren. Wir präsentieren EKA-EVAL, einen einheitlichen und produktionsreifen Bewertungsrahmen, der über 35 Benchmarks integriert, darunter 10 indienspezifische Datensätze, die Kategorien wie logisches Denken, Mathematik, Werkzeugnutzung, Langzeitkontextverständnis und Leseverständnis abdecken. Im Vergleich zu bestehenden Bewertungstools für indische Sprachen bietet EKA-EVAL eine breitere Benchmark-Abdeckung mit integrierter Unterstützung für verteilte Inferenz, Quantisierung und Multi-GPU-Nutzung. Unsere systematische Vergleichsstudie positioniert EKA-EVAL als das erste end-to-end, erweiterbare Bewertungssystem, das sowohl für globale als auch für indische LLMs maßgeschneidert ist und die Barriere für mehrsprachige Benchmarking erheblich senkt. Das Framework ist Open-Source und öffentlich verfügbar unter https://github.com/lingo-iitgn/eka-eval und Teil der laufenden EKA-Initiative (https://eka.soket.ai), die darauf abzielt, auf über 100 Benchmarks zu skalieren und ein robustes, mehrsprachiges Bewertungsökosystem für LLMs zu etablieren.
English
The rapid advancement of Large Language Models (LLMs) has intensified the
need for evaluation frameworks that go beyond English centric benchmarks and
address the requirements of linguistically diverse regions such as India. We
present EKA-EVAL, a unified and production-ready evaluation framework that
integrates over 35 benchmarks, including 10 Indic-specific datasets, spanning
categories like reasoning, mathematics, tool use, long-context understanding,
and reading comprehension. Compared to existing Indian language evaluation
tools, EKA-EVAL offers broader benchmark coverage, with built-in support for
distributed inference, quantization, and multi-GPU usage. Our systematic
comparison positions EKA-EVAL as the first end-to-end, extensible evaluation
suite tailored for both global and Indic LLMs, significantly lowering the
barrier to multilingual benchmarking. The framework is open-source and publicly
available at https://github.com/lingo-iitgn/ eka-eval and a part of ongoing EKA
initiative (https://eka.soket.ai), which aims to scale up to over 100
benchmarks and establish a robust, multilingual evaluation ecosystem for LLMs.