Die Generative Energy Arena (GEA): Integration von Energiebewusstsein in menschliche Evaluationen von Large Language Models (LLMs)
The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations
July 17, 2025
papers.authors: Carlos Arriaga, Gonzalo Martínez, Eneko Sendin, Javier Conde, Pedro Reviriego
cs.AI
papers.abstract
Die Bewertung großer Sprachmodelle ist eine komplexe Aufgabe, für die mehrere Ansätze vorgeschlagen wurden. Der gängigste ist die Verwendung automatisierter Benchmarks, bei denen LLMs Multiple-Choice-Fragen zu verschiedenen Themen beantworten müssen. Diese Methode weist jedoch gewisse Einschränkungen auf, wobei die geringe Korrelation mit menschlichen Bewertungen am bedenklichsten ist. Ein alternativer Ansatz besteht darin, dass Menschen die LLMs bewerten. Dies wirft Skalierbarkeitsprobleme auf, da es eine große und wachsende Anzahl von Modellen zu bewerten gibt, was traditionelle Studien, die auf der Rekrutierung einer Anzahl von Bewertern und deren Rangfolge der Modellantworten basieren, unpraktisch (und kostspielig) macht. Ein weiterer Ansatz ist die Nutzung öffentlicher Arenen, wie der beliebten LM-Arena, auf der jeder Benutzer frei Modelle zu jeder Frage bewerten und die Antworten zweier Modelle einordnen kann. Die Ergebnisse werden dann zu einer Modellrangfolge verarbeitet. Ein zunehmend wichtiger Aspekt von LLMs ist ihr Energieverbrauch, und daher ist es von Interesse zu bewerten, wie sich das Energiebewusstsein auf die Entscheidungen von Menschen bei der Auswahl eines Modells auswirkt. In diesem Artikel stellen wir GEA, die Generative Energy Arena, vor, eine Arena, die Informationen zum Energieverbrauch des Modells in den Bewertungsprozess einbezieht. Es werden auch vorläufige Ergebnisse präsentiert, die mit GEA erzielt wurden und zeigen, dass die meisten Benutzer, wenn sie sich des Energieverbrauchs bewusst sind, kleinere und energieeffizientere Modelle bevorzugen. Dies deutet darauf hin, dass bei den meisten Benutzerinteraktionen die zusätzlichen Kosten und der Energieaufwand der komplexeren und leistungsstärkeren Modelle keinen Anstieg der wahrgenommenen Qualität der Antworten bieten, der ihren Einsatz rechtfertigen würde.
English
The evaluation of large language models is a complex task, in which several
approaches have been proposed. The most common is the use of automated
benchmarks in which LLMs have to answer multiple-choice questions of different
topics. However, this method has certain limitations, being the most
concerning, the poor correlation with the humans. An alternative approach, is
to have humans evaluate the LLMs. This poses scalability issues as there is a
large and growing number of models to evaluate making it impractical (and
costly) to run traditional studies based on recruiting a number of evaluators
and having them rank the responses of the models. An alternative approach is
the use of public arenas, such as the popular LM arena, on which any user can
freely evaluate models on any question and rank the responses of two models.
The results are then elaborated into a model ranking. An increasingly important
aspect of LLMs is their energy consumption and, therefore, evaluating how
energy awareness influences the decisions of humans in selecting a model is of
interest. In this paper, we present GEA, the Generative Energy Arena, an arena
that incorporates information on the energy consumption of the model in the
evaluation process. Preliminary results obtained with GEA are also presented,
showing that for most questions, when users are aware of the energy
consumption, they favor smaller and more energy efficient models. This suggests
that for most user interactions, the extra cost and energy incurred by the more
complex and top-performing models do not provide an increase in the perceived
quality of the responses that justifies their use.