CAR-bench : Ăvaluation de la cohĂ©rence et de la conscience des limites des agents LLM face Ă l'incertitude du monde rĂ©elCAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty
Les bancs d'essai existants pour les agents de modĂšles de langage de grande taille (LLM) se concentrent sur l'accomplissement de tĂąches dans des conditions idĂ©ales, mais nĂ©gligent la fiabilitĂ© dans des applications rĂ©alistes destinĂ©es aux utilisateurs finaux. Dans des domaines comme les assistants vocaux embarquĂ©s, les utilisateurs formulent souvent des requĂȘtes incomplĂštes ou ambiguĂ«s, crĂ©ant une incertitude intrinsĂšque que les agents doivent gĂ©rer par le dialogue, l'utilisation d'outils et le respect de politiques opĂ©rationnelles. Nous prĂ©sentons CAR-bench, un banc d'essai conçu pour Ă©valuer la cohĂ©rence, la gestion de l'incertitude et la conscience des capacitĂ©s des agents LLM utilisant des outils dans un scĂ©nario d'assistant embarquĂ© Ă tours de rĂŽle. L'environnement comprend un utilisateur simulĂ© par un LLM, des politiques de domaine et 58 outils interconnectĂ©s couvrant la navigation, la productivitĂ©, la recharge et le contrĂŽle du vĂ©hicule. Au-delĂ de l'accomplissement standard des tĂąches, CAR-bench introduit des tĂąches d'Hallucination qui testent la conscience des limites de l'agent face Ă des outils ou informations manquants, et des tĂąches de DĂ©sambiguĂŻsation qui exigent de rĂ©soudre l'incertitude par clarification ou collecte d'informations internes. Les rĂ©sultats de rĂ©fĂ©rence rĂ©vĂšlent d'importants Ă©carts entre une rĂ©ussite occasionnelle et une rĂ©ussite constante sur tous les types de tĂąches. MĂȘme les LLM de pointe spĂ©cialisĂ©s en raisonnement obtiennent un taux de rĂ©ussite constant infĂ©rieur Ă 50 % sur les tĂąches de DĂ©sambiguĂŻsation en raison d'actions prĂ©maturĂ©es, et violent frĂ©quemment les politiques ou inventent des informations pour satisfaire les requĂȘtes utilisateur dans les tĂąches d'Hallucination, soulignant le besoin d'agents LLM plus fiables et conscients de leurs limites dans des contextes rĂ©els.