L'Arena d'Énergie Générative (AEG) : Intégration de la Conscience Énergétique dans les Évaluations Humaines des Modèles de Langage à Grande Échelle (LLM)
The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations
July 17, 2025
papers.authors: Carlos Arriaga, Gonzalo Martínez, Eneko Sendin, Javier Conde, Pedro Reviriego
cs.AI
papers.abstract
L'évaluation des grands modèles de langage est une tâche complexe pour laquelle plusieurs approches ont été proposées. La plus courante consiste à utiliser des benchmarks automatisés dans lesquels les LLM doivent répondre à des questions à choix multiples sur différents sujets. Cependant, cette méthode présente certaines limites, la plus préoccupante étant la faible corrélation avec les évaluations humaines. Une approche alternative consiste à faire évaluer les LLM par des humains. Cela pose des problèmes de scalabilité, car le nombre de modèles à évaluer est important et ne cesse de croître, rendant peu pratique (et coûteuse) la réalisation d'études traditionnelles basées sur le recrutement d'un nombre d'évaluateurs et leur classement des réponses des modèles. Une autre approche consiste à utiliser des arènes publiques, comme la populaire LM Arena, sur laquelle tout utilisateur peut librement évaluer des modèles sur n'importe quelle question et classer les réponses de deux modèles. Les résultats sont ensuite élaborés pour établir un classement des modèles. Un aspect de plus en plus important des LLM est leur consommation énergétique, et il est donc intéressant d'évaluer comment la prise en compte de l'énergie influence les décisions des humains dans le choix d'un modèle. Dans cet article, nous présentons GEA, la Generative Energy Arena, une arène qui intègre des informations sur la consommation énergétique des modèles dans le processus d'évaluation. Les résultats préliminaires obtenus avec GEA sont également présentés, montrant que pour la plupart des questions, lorsque les utilisateurs sont informés de la consommation énergétique, ils privilégient des modèles plus petits et plus efficaces sur le plan énergétique. Cela suggère que pour la plupart des interactions utilisateur, le coût supplémentaire et l'énergie consommée par les modèles plus complexes et les plus performants ne fournissent pas une augmentation de la qualité perçue des réponses justifiant leur utilisation.
English
The evaluation of large language models is a complex task, in which several
approaches have been proposed. The most common is the use of automated
benchmarks in which LLMs have to answer multiple-choice questions of different
topics. However, this method has certain limitations, being the most
concerning, the poor correlation with the humans. An alternative approach, is
to have humans evaluate the LLMs. This poses scalability issues as there is a
large and growing number of models to evaluate making it impractical (and
costly) to run traditional studies based on recruiting a number of evaluators
and having them rank the responses of the models. An alternative approach is
the use of public arenas, such as the popular LM arena, on which any user can
freely evaluate models on any question and rank the responses of two models.
The results are then elaborated into a model ranking. An increasingly important
aspect of LLMs is their energy consumption and, therefore, evaluating how
energy awareness influences the decisions of humans in selecting a model is of
interest. In this paper, we present GEA, the Generative Energy Arena, an arena
that incorporates information on the energy consumption of the model in the
evaluation process. Preliminary results obtained with GEA are also presented,
showing that for most questions, when users are aware of the energy
consumption, they favor smaller and more energy efficient models. This suggests
that for most user interactions, the extra cost and energy incurred by the more
complex and top-performing models do not provide an increase in the perceived
quality of the responses that justifies their use.