ChatPaper.aiChatPaper

De Generative Energy Arena (GEA): Het Integreren van Energiebewustzijn in Menselijke Evaluaties van Grote Taalmodellen (LLM's)

The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations

July 17, 2025
Auteurs: Carlos Arriaga, Gonzalo Martínez, Eneko Sendin, Javier Conde, Pedro Reviriego
cs.AI

Samenvatting

De evaluatie van grote taalmodellen is een complexe taak, waarbij verschillende benaderingen zijn voorgesteld. De meest gebruikelijke is het gebruik van geautomatiseerde benchmarks, waarbij LLM's meerkeuzevragen over verschillende onderwerpen moeten beantwoorden. Deze methode heeft echter bepaalde beperkingen, waarvan de meest zorgwekkende de slechte correlatie met menselijke beoordelingen is. Een alternatieve benadering is om mensen de LLM's te laten evalueren. Dit brengt schaalbaarheidsproblemen met zich mee, aangezien er een groot en groeiend aantal modellen is om te evalueren, wat het onpraktisch (en kostbaar) maakt om traditionele studies uit te voeren die gebaseerd zijn op het werven van een aantal beoordelaars en het laten rangschikken van de antwoorden van de modellen. Een alternatieve benadering is het gebruik van openbare arena's, zoals de populaire LM Arena, waar elke gebruiker vrijelijk modellen kan evalueren op elke vraag en de antwoorden van twee modellen kan rangschikken. De resultaten worden vervolgens verwerkt tot een modelrangschikking. Een steeds belangrijker aspect van LLM's is hun energieverbruik, en daarom is het interessant om te evalueren hoe energiebewustzijn de beslissingen van mensen beïnvloedt bij het selecteren van een model. In dit artikel presenteren we GEA, de Generative Energy Arena, een arena die informatie over het energieverbruik van het model integreert in het evaluatieproces. Ook worden voorlopige resultaten verkregen met GEA gepresenteerd, die laten zien dat voor de meeste vragen, wanneer gebruikers zich bewust zijn van het energieverbruik, zij kleinere en energiezuinigere modellen verkiezen. Dit suggereert dat voor de meeste gebruikersinteracties de extra kosten en energie die gepaard gaan met de complexere en best presterende modellen, geen toename bieden in de waargenomen kwaliteit van de antwoorden die het gebruik ervan rechtvaardigt.
English
The evaluation of large language models is a complex task, in which several approaches have been proposed. The most common is the use of automated benchmarks in which LLMs have to answer multiple-choice questions of different topics. However, this method has certain limitations, being the most concerning, the poor correlation with the humans. An alternative approach, is to have humans evaluate the LLMs. This poses scalability issues as there is a large and growing number of models to evaluate making it impractical (and costly) to run traditional studies based on recruiting a number of evaluators and having them rank the responses of the models. An alternative approach is the use of public arenas, such as the popular LM arena, on which any user can freely evaluate models on any question and rank the responses of two models. The results are then elaborated into a model ranking. An increasingly important aspect of LLMs is their energy consumption and, therefore, evaluating how energy awareness influences the decisions of humans in selecting a model is of interest. In this paper, we present GEA, the Generative Energy Arena, an arena that incorporates information on the energy consumption of the model in the evaluation process. Preliminary results obtained with GEA are also presented, showing that for most questions, when users are aware of the energy consumption, they favor smaller and more energy efficient models. This suggests that for most user interactions, the extra cost and energy incurred by the more complex and top-performing models do not provide an increase in the perceived quality of the responses that justifies their use.
PDF41July 21, 2025