Agente come Giudice

Abstract

LLM-as-a-Judge ha rivoluzionato la valutazione dell'IA sfruttando i grandi modelli linguistici per valutazioni scalabili. Tuttavia, man mano che i soggetti da valutare diventano sempre più complessi, specializzati e multi-step, l'affidabilità di LLM-as-a-Judge è diventata limitata da bias intrinseci, ragionamenti superficiali single-pass e dall'incapacità di verificare le valutazioni rispetto a osservazioni del mondo reale. Ciò ha catalizzato la transizione verso Agent-as-a-Judge, dove giudici agentivi impiegano pianificazione, verifica potenziata da strumenti, collaborazione multi-agente e memoria persistente per consentire valutazioni più robuste, verificabili e sfumate. Nonostante la rapida proliferazione di sistemi di valutazione agentivi, il campo manca di un quadro unificato per orientarsi in questo panorama in evoluzione. Per colmare questa lacuna, presentiamo la prima rassegna completa che traccia questa evoluzione. Nello specifico, identifichiamo le dimensioni chiave che caratterizzano questo cambio di paradigma e stabiliamo una tassonomia dello sviluppo. Organizziamo le metodologie fondamentali e analizziamo le applicazioni in ambiti generali e professionali. Inoltre, analizziamo le sfide all'avanguardia e identifichiamo promettenti direzioni di ricerca, fornendo infine una roadmap chiara per la prossima generazione di valutazione agentiva.

English

LLM-as-a-Judge has revolutionized AI evaluation by leveraging large language models for scalable assessments. However, as evaluands become increasingly complex, specialized, and multi-step, the reliability of LLM-as-a-Judge has become constrained by inherent biases, shallow single-pass reasoning, and the inability to verify assessments against real-world observations. This has catalyzed the transition to Agent-as-a-Judge, where agentic judges employ planning, tool-augmented verification, multi-agent collaboration, and persistent memory to enable more robust, verifiable, and nuanced evaluations. Despite the rapid proliferation of agentic evaluation systems, the field lacks a unified framework to navigate this shifting landscape. To bridge this gap, we present the first comprehensive survey tracing this evolution. Specifically, we identify key dimensions that characterize this paradigm shift and establish a developmental taxonomy. We organize core methodologies and survey applications across general and professional domains. Furthermore, we analyze frontier challenges and identify promising research directions, ultimately providing a clear roadmap for the next generation of agentic evaluation.