Overzicht van Evaluatie van LLM-gebaseerde AgentsSurvey on Evaluation of LLM-based Agents
De opkomst van LLM-gebaseerde agents markeert een paradigmaverschuiving in AI, waardoor autonome systemen kunnen plannen, redeneren, tools gebruiken en geheugen behouden terwijl ze interacteren met dynamische omgevingen. Dit artikel biedt de eerste uitgebreide overzicht van evaluatiemethodologieën voor deze steeds capabelere agents. We analyseren systematisch evaluatiebenchmarks en -frameworks langs vier kritische dimensies: (1) fundamentele agentvaardigheden, waaronder planning, toolgebruik, zelfreflectie en geheugen; (2) toepassingsspecifieke benchmarks voor web-, software engineering-, wetenschappelijke en conversatieagents; (3) benchmarks voor generalistische agents; en (4) frameworks voor het evalueren van agents. Onze analyse onthult opkomende trends, waaronder een verschuiving naar meer realistische, uitdagende evaluaties met continu bijgewerkte benchmarks. We identificeren ook kritieke lacunes die toekomstig onderzoek moet aanpakken—met name op het gebied van kostenefficiëntie, veiligheid en robuustheid, en in de ontwikkeling van fijnmazige en schaalbare evaluatiemethoden. Dit overzicht brengt het snel evoluerende landschap van agentevaluatie in kaart, onthult de opkomende trends in het veld, identificeert huidige beperkingen en stelt richtingen voor toekomstig onderzoek voor.