CAR-bench: Bewertung der Konsistenz und Grenzbewusstheit von LLM-Agenten unter realweltlicher UnsicherheitCAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty
Bestehende Benchmarks für Agenten auf Basis großer Sprachmodelle (LLM) konzentrieren sich auf die Aufgabenerfüllung unter idealisierten Bedingungen, vernachlässigen jedoch die Zuverlässigkeit in realen, anwendernahen Szenarien. In Domänen wie sprachgesteuerten Fahrzeugassistenten geben Nutzer oft unvollständige oder mehrdeutige Anfragen ein, was eine intrinsische Unsicherheit erzeugt, die Agenten durch Dialog, Werkzeugnutzung und Befolgung von Richtlinien bewältigen müssen. Wir stellen CAR-bench vor, einen Benchmark zur Bewertung von Konsistenz, Umgang mit Unsicherheit und Fähigkeitsbewusstsein bei mehrschrittigen, werkzeugnutzenden LLM-Agenten im Kontext von Fahrzeugassistenten. Die Umgebung umfasst einen LLM-simulierten Nutzer, domänenspezifische Richtlinien und 58 vernetzte Werkzeuge aus den Bereichen Navigation, Produktivität, Ladefunktionen und Fahrzeugsteuerung. Über die reine Aufgabenerfüllung hinaus führt CAR-bench Halluzinationsaufgaben ein, die das Grenzbewusstsein der Agenten bei fehlenden Werkzeugen oder Informationen testen, sowie Disambiguierungsaufgaben, die das Auflösen von Unsicherheiten durch Nachfragen oder interne Informationsbeschaffung erfordern. Basislinien-Ergebnisse zeigen große Lücken zwischen gelegentlichem und konsistentem Erfolg bei allen Aufgabentypen. Selbst führende reasoning-LLMs erreichen bei Disambiguierungsaufgaben eine konsistente Bestehensrate von unter 50 % aufgrund vorzeitiger Aktionen und verletzen in Halluzinationsaufgaben häufig Richtlinien oder erfinden Informationen, um Nutzeranfragen zu erfüllen. Dies unterstreicht den Bedarf an zuverlässigeren und selbstreflektierteren LLM-Agenten für reale Anwendungsszenarien.