CAR-bench: Evaluación de la Consistencia y Conciencia de los Límites de Agentes LLM bajo Incertidumbre del Mundo RealCAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty
Los puntos de referencia existentes para agentes de modelos de lenguaje grandes (LLM) se centran en la finalización de tareas en entornos idealistas, pero pasan por alto la fiabilidad en aplicaciones reales orientadas al usuario. En dominios como los asistentes de voz para automóviles, los usuarios suelen realizar peticiones incompletas o ambiguas, creando una incertidumbre intrínseca que los agentes deben gestionar mediante diálogo, uso de herramientas y adherencia a políticas. Presentamos CAR-bench, un punto de referencia para evaluar la coherencia, el manejo de la incertidumbre y la conciencia de capacidades en agentes LLM multi-turno que utilizan herramientas, en el dominio de un asistente para automóvil. El entorno incluye un usuario simulado por un LLM, políticas de dominio y 58 herramientas interconectadas que abarcan navegación, productividad, carga y control del vehículo. Más allá de la finalización estándar de tareas, CAR-bench introduce tareas de Alucinación que prueban la conciencia de los límites del agente ante herramientas o información faltante, y tareas de Desambiguación que requieren resolver la incertidumbre mediante aclaraciones o recopilación interna de información. Los resultados de referencia revelan grandes brechas entre el éxito ocasional y el consistente en todos los tipos de tareas. Incluso los LLMs de razonamiento más avanzados logran menos del 50% de tasa de aprobación consistente en las tareas de Desambiguación debido a acciones prematuras, y frecuentemente violan políticas o fabrican información para satisfacer las peticiones del usuario en las tareas de Alucinación, subrayando la necesidad de agentes LLM más fiables y autoconscientes en entornos del mundo real.