ChatPaper.aiChatPaper

LLM Comparator: Visuele analyse voor zij-aan-zij evaluatie van grote taalmodellen

LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large Language Models

February 16, 2024
Auteurs: Minsuk Kahng, Ian Tenney, Mahima Pushkarna, Michael Xieyang Liu, James Wexler, Emily Reif, Krystal Kallarackal, Minsuk Chang, Michael Terry, Lucas Dixon
cs.AI

Samenvatting

Automatische side-by-side-evaluatie is naar voren gekomen als een veelbelovende benadering voor het beoordelen van de kwaliteit van reacties van grote taalmodelen (LLM's). Het analyseren van de resultaten van deze evaluatiemethode brengt echter schaalbaarheids- en interpreteerbaarheidsuitdagingen met zich mee. In dit artikel presenteren we LLM Comparator, een innovatief visueel analyse-instrument voor het interactief analyseren van resultaten van automatische side-by-side-evaluatie. Het instrument ondersteunt interactieve workflows waarmee gebruikers kunnen begrijpen wanneer en waarom een model beter of slechter presteert dan een basismodel, en hoe de reacties van twee modellen kwalitatief verschillen. We hebben het instrument iteratief ontworpen en ontwikkeld door nauw samen te werken met onderzoekers en ingenieurs bij een groot technologiebedrijf. Dit artikel gaat in detail in op de gebruikersuitdagingen die we hebben geïdentificeerd, het ontwerp en de ontwikkeling van het instrument, en een observationele studie met deelnemers die regelmatig hun modellen evalueren.
English
Automatic side-by-side evaluation has emerged as a promising approach to evaluating the quality of responses from large language models (LLMs). However, analyzing the results from this evaluation approach raises scalability and interpretability challenges. In this paper, we present LLM Comparator, a novel visual analytics tool for interactively analyzing results from automatic side-by-side evaluation. The tool supports interactive workflows for users to understand when and why a model performs better or worse than a baseline model, and how the responses from two models are qualitatively different. We iteratively designed and developed the tool by closely working with researchers and engineers at a large technology company. This paper details the user challenges we identified, the design and development of the tool, and an observational study with participants who regularly evaluate their models.
PDF236February 8, 2026