Eka-Eval:インド言語における大規模言語モデルの包括的評価フレームワーク
Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages
July 2, 2025
著者: Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal, Mayank Singh
cs.AI
要旨
大規模言語モデル(LLMs)の急速な進展に伴い、英語中心のベンチマークを超え、インドのような言語的多様性を持つ地域の要件に対応する評価フレームワークの必要性が高まっています。本論文では、EKA-EVALを紹介します。これは、推論、数学、ツール使用、長文理解、読解などのカテゴリにまたがる35以上のベンチマーク(うち10はインド固有のデータセット)を統合した、本番環境対応の統一評価フレームワークです。既存のインド言語評価ツールと比較して、EKA-EVALはより広範なベンチマークカバレッジを提供し、分散推論、量子化、マルチGPU使用のサポートを内蔵しています。体系的な比較を通じて、EKA-EVALはグローバルおよびインドのLLMs向けにカスタマイズされた初のエンドツーエンドで拡張可能な評価スイートとして位置づけられ、多言語ベンチマークの障壁を大幅に低減します。このフレームワークはオープンソースで、https://github.com/lingo-iitgn/eka-eval で公開されており、100以上のベンチマークにスケールアップし、LLMsのための堅牢な多言語評価エコシステムを確立することを目指すEKAイニシアチブ(https://eka.soket.ai)の一部です。
English
The rapid advancement of Large Language Models (LLMs) has intensified the
need for evaluation frameworks that go beyond English centric benchmarks and
address the requirements of linguistically diverse regions such as India. We
present EKA-EVAL, a unified and production-ready evaluation framework that
integrates over 35 benchmarks, including 10 Indic-specific datasets, spanning
categories like reasoning, mathematics, tool use, long-context understanding,
and reading comprehension. Compared to existing Indian language evaluation
tools, EKA-EVAL offers broader benchmark coverage, with built-in support for
distributed inference, quantization, and multi-GPU usage. Our systematic
comparison positions EKA-EVAL as the first end-to-end, extensible evaluation
suite tailored for both global and Indic LLMs, significantly lowering the
barrier to multilingual benchmarking. The framework is open-source and publicly
available at https://github.com/lingo-iitgn/ eka-eval and a part of ongoing EKA
initiative (https://eka.soket.ai), which aims to scale up to over 100
benchmarks and establish a robust, multilingual evaluation ecosystem for LLMs.