Übersicht zur Bewertung von LLM-basierten AgentenSurvey on Evaluation of LLM-based Agents
Das Aufkommen von LLM-basierten Agenten markiert einen Paradigmenwechsel in der KI, der autonomen Systemen ermöglicht, zu planen, zu schlussfolgern, Werkzeuge zu nutzen und Erinnerungen zu bewahren, während sie mit dynamischen Umgebungen interagieren. Diese Arbeit bietet die erste umfassende Übersicht über Evaluierungsmethoden für diese zunehmend leistungsfähigen Agenten. Wir analysieren systematisch Evaluierungsbenchmarks und -rahmenwerke in vier kritischen Dimensionen: (1) grundlegende Fähigkeiten von Agenten, einschließlich Planung, Werkzeugnutzung, Selbstreflexion und Gedächtnis; (2) anwendungsspezifische Benchmarks für Web-, Softwareentwicklungs-, wissenschaftliche und konversationelle Agenten; (3) Benchmarks für Generalisten-Agenten; und (4) Rahmenwerke zur Evaluierung von Agenten. Unsere Analyse zeigt aufkommende Trends auf, darunter eine Hinwendung zu realistischeren, herausfordernden Evaluierungen mit kontinuierlich aktualisierten Benchmarks. Wir identifizieren auch kritische Lücken, die zukünftige Forschung angehen muss – insbesondere bei der Bewertung von Kosteneffizienz, Sicherheit und Robustheit sowie bei der Entwicklung feingranularer und skalierbarer Evaluierungsmethoden. Diese Übersicht kartiert die sich schnell entwickelnde Landschaft der Agenten-Evaluierung, zeigt die aufkommenden Trends in diesem Bereich auf, identifiziert aktuelle Grenzen und schlägt Richtungen für zukünftige Forschung vor.