La Arena de Energía Generativa (GEA): Incorporación de la Conciencia Energética en las Evaluaciones Humanas de Modelos de Lenguaje de Gran Escala (LLM)
The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations
July 17, 2025
Autores: Carlos Arriaga, Gonzalo Martínez, Eneko Sendin, Javier Conde, Pedro Reviriego
cs.AI
Resumen
La evaluación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es una tarea compleja, en la cual se han propuesto varios enfoques. El más común es el uso de benchmarks automatizados en los que los LLMs deben responder preguntas de opción múltiple sobre diversos temas. Sin embargo, este método tiene ciertas limitaciones, siendo la más preocupante la baja correlación con las evaluaciones humanas. Un enfoque alternativo es que los humanos evalúen los LLMs. Esto plantea problemas de escalabilidad, ya que existe un número grande y creciente de modelos que evaluar, lo que hace poco práctico (y costoso) realizar estudios tradicionales basados en reclutar un número de evaluadores y hacer que clasifiquen las respuestas de los modelos. Un enfoque alternativo es el uso de arenas públicas, como la popular LM Arena, en la que cualquier usuario puede evaluar libremente modelos sobre cualquier pregunta y clasificar las respuestas de dos modelos. Los resultados se elaboran luego en una clasificación de modelos. Un aspecto cada vez más importante de los LLMs es su consumo de energía y, por lo tanto, evaluar cómo la conciencia energética influye en las decisiones de los humanos al seleccionar un modelo es de interés. En este artículo, presentamos GEA, la Generative Energy Arena, una arena que incorpora información sobre el consumo de energía del modelo en el proceso de evaluación. También se presentan resultados preliminares obtenidos con GEA, que muestran que, para la mayoría de las preguntas, cuando los usuarios son conscientes del consumo de energía, prefieren modelos más pequeños y eficientes energéticamente. Esto sugiere que, para la mayoría de las interacciones de los usuarios, el costo adicional y el consumo de energía incurridos por los modelos más complejos y de mayor rendimiento no proporcionan un aumento en la calidad percibida de las respuestas que justifique su uso.
English
The evaluation of large language models is a complex task, in which several
approaches have been proposed. The most common is the use of automated
benchmarks in which LLMs have to answer multiple-choice questions of different
topics. However, this method has certain limitations, being the most
concerning, the poor correlation with the humans. An alternative approach, is
to have humans evaluate the LLMs. This poses scalability issues as there is a
large and growing number of models to evaluate making it impractical (and
costly) to run traditional studies based on recruiting a number of evaluators
and having them rank the responses of the models. An alternative approach is
the use of public arenas, such as the popular LM arena, on which any user can
freely evaluate models on any question and rank the responses of two models.
The results are then elaborated into a model ranking. An increasingly important
aspect of LLMs is their energy consumption and, therefore, evaluating how
energy awareness influences the decisions of humans in selecting a model is of
interest. In this paper, we present GEA, the Generative Energy Arena, an arena
that incorporates information on the energy consumption of the model in the
evaluation process. Preliminary results obtained with GEA are also presented,
showing that for most questions, when users are aware of the energy
consumption, they favor smaller and more energy efficient models. This suggests
that for most user interactions, the extra cost and energy incurred by the more
complex and top-performing models do not provide an increase in the perceived
quality of the responses that justifies their use.