Indagine sulla Valutazione di Agenti Basati su LLMSurvey on Evaluation of LLM-based Agents
L'emergere di agenti basati su LLM rappresenta un cambiamento di paradigma nell'IA, consentendo a sistemi autonomi di pianificare, ragionare, utilizzare strumenti e mantenere memoria mentre interagiscono con ambienti dinamici. Questo articolo fornisce la prima rassegna completa delle metodologie di valutazione per questi agenti sempre più capaci. Analizziamo sistematicamente benchmark e framework di valutazione attraverso quattro dimensioni critiche: (1) capacità fondamentali degli agenti, tra cui pianificazione, uso di strumenti, auto-riflessione e memoria; (2) benchmark specifici per applicazioni come agenti web, di ingegneria del software, scientifici e conversazionali; (3) benchmark per agenti generalisti; e (4) framework per la valutazione degli agenti. La nostra analisi rivela tendenze emergenti, tra cui un passaggio verso valutazioni più realistiche e impegnative con benchmark continuamente aggiornati. Identifichiamo inoltre lacune critiche che la ricerca futura dovrà affrontare, in particolare nella valutazione di efficienza dei costi, sicurezza e robustezza, e nello sviluppo di metodi di valutazione granulari e scalabili. Questa rassegna mappa il panorama in rapida evoluzione della valutazione degli agenti, rivela le tendenze emergenti nel campo, identifica le attuali limitazioni e propone direzioni per la ricerca futura.