ChatPaper.aiChatPaper

Eka-Eval: Um Framework Abrangente de Avaliação para Modelos de Linguagem de Grande Escala em Línguas Indianas

Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian Languages

July 2, 2025
Autores: Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal, Mayank Singh
cs.AI

Resumo

O rápido avanço dos Modelos de Linguagem de Grande Escala (LLMs) intensificou a necessidade de frameworks de avaliação que vão além de benchmarks centrados no inglês e atendam às exigências de regiões linguisticamente diversas, como a Índia. Apresentamos o EKA-EVAL, um framework de avaliação unificado e pronto para produção que integra mais de 35 benchmarks, incluindo 10 conjuntos de dados específicos para línguas indianas, abrangendo categorias como raciocínio, matemática, uso de ferramentas, compreensão de contexto longo e leitura. Em comparação com as ferramentas de avaliação existentes para línguas indianas, o EKA-EVAL oferece uma cobertura mais ampla de benchmarks, com suporte integrado para inferência distribuída, quantização e uso de múltiplas GPUs. Nossa comparação sistemática posiciona o EKA-EVAL como o primeiro conjunto de avaliação end-to-end e extensível, projetado tanto para LLMs globais quanto para LLMs indianos, reduzindo significativamente a barreira para benchmarking multilíngue. O framework é de código aberto e está publicamente disponível em https://github.com/lingo-iitgn/eka-eval e faz parte da iniciativa EKA em andamento (https://eka.soket.ai), que visa escalar para mais de 100 benchmarks e estabelecer um ecossistema robusto e multilíngue de avaliação para LLMs.
English
The rapid advancement of Large Language Models (LLMs) has intensified the need for evaluation frameworks that go beyond English centric benchmarks and address the requirements of linguistically diverse regions such as India. We present EKA-EVAL, a unified and production-ready evaluation framework that integrates over 35 benchmarks, including 10 Indic-specific datasets, spanning categories like reasoning, mathematics, tool use, long-context understanding, and reading comprehension. Compared to existing Indian language evaluation tools, EKA-EVAL offers broader benchmark coverage, with built-in support for distributed inference, quantization, and multi-GPU usage. Our systematic comparison positions EKA-EVAL as the first end-to-end, extensible evaluation suite tailored for both global and Indic LLMs, significantly lowering the barrier to multilingual benchmarking. The framework is open-source and publicly available at https://github.com/lingo-iitgn/ eka-eval and a part of ongoing EKA initiative (https://eka.soket.ai), which aims to scale up to over 100 benchmarks and establish a robust, multilingual evaluation ecosystem for LLMs.
PDF112July 7, 2025