Agent-als-rechter

Samenvatting

LLM-as-a-Judge heeft een revolutie teweeggebracht in AI-evaluatie door grootschalige taalmodellen in te zetten voor schaalbare beoordelingen. Naarmate de te evalueren systemen echter steeds complexer, gespecialiseerder en meerstappig worden, wordt de betrouwbaarheid van LLM-as-a-Judge beperkt door inherente vooroordelen, oppervlakkige eenmalige redenering en het onvermogen om beoordelingen te verifiëren aan de hand van waarnemingen uit de echte wereld. Dit heeft de overgang naar Agent-as-a-Judge versneld, waarbij agent-gebaseerde beoordelaars planning, tool-ondersteunde verificatie, multi-agent samenwerking en persistent geheugen inzetten om robuustere, verifieerbare en genuanceerdere evaluaties mogelijk te maken. Ondanks de snelle opkomst van agent-gebaseerde evaluatiesystemen ontbreekt het het veld aan een uniform kader om dit veranderende landschap te navigeren. Om deze kloof te overbruggen, presenteren wij de eerste uitgebreide survey die deze evolutie in kaart brengt. Concreet identificeren we kern-dimensies die deze paradigmaverschuiving kenmerken en stellen we een ontwikkelings-taxonomie op. We structuren de kernmethodologieën en bespreken toepassingen in zowel algemene als professionele domeinen. Verder analyseren we grensverleggende uitdagingen en identificeren we veelbelovende onderzoeksrichtingen, om uiteindelijk een heldere routekaart te bieden voor de volgende generatie van agent-gebaseerde evaluatie.

English

LLM-as-a-Judge has revolutionized AI evaluation by leveraging large language models for scalable assessments. However, as evaluands become increasingly complex, specialized, and multi-step, the reliability of LLM-as-a-Judge has become constrained by inherent biases, shallow single-pass reasoning, and the inability to verify assessments against real-world observations. This has catalyzed the transition to Agent-as-a-Judge, where agentic judges employ planning, tool-augmented verification, multi-agent collaboration, and persistent memory to enable more robust, verifiable, and nuanced evaluations. Despite the rapid proliferation of agentic evaluation systems, the field lacks a unified framework to navigate this shifting landscape. To bridge this gap, we present the first comprehensive survey tracing this evolution. Specifically, we identify key dimensions that characterize this paradigm shift and establish a developmental taxonomy. We organize core methodologies and survey applications across general and professional domains. Furthermore, we analyze frontier challenges and identify promising research directions, ultimately providing a clear roadmap for the next generation of agentic evaluation.