CAR-bench: Avaliando a Consistência e Consciência dos Limites de Agentes de LLM sob Incerteza do Mundo RealCAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty
Os benchmarks existentes para agentes de Grandes Modelos de Linguagem (LLMs) concentram-se na conclusão de tarefas em ambientes idealistas, mas negligenciam a confiabilidade em aplicações do mundo real voltadas para o utilizador. Em domínios como os assistentes de voz automóveis, os utilizadores frequentemente fazem pedidos incompletos ou ambíguos, criando uma incerteza intrínseca que os agentes devem gerir através de diálogo, uso de ferramentas e adesão a políticas. Apresentamos o CAR-bench, um benchmark para avaliar a consistência, o tratamento de incertezas e a consciência das capacidades em agentes LLM multi-turn que utilizam ferramentas, no domínio de um assistente automóvel. O ambiente apresenta um utilizador simulado por LLM, políticas de domínio e 58 ferramentas interligadas que abrangem navegação, produtividade, carregamento e controlo do veículo. Para além da conclusão padrão de tarefas, o CAR-bench introduz tarefas de Alucinação que testam a consciência dos limites do agente perante ferramentas ou informações em falta, e tarefas de Desambiguação que exigem a resolução de incertezas através de clarificação ou recolha interna de informação. Resultados de linha de base revelam grandes lacunas entre o sucesso ocasional e o sucesso consistente em todos os tipos de tarefa. Mesmo os LLMs de raciocínio mais avançado atingem menos de 50% de taxa de aprovação consistente nas tarefas de Desambiguação devido a ações prematuras, e violam frequentemente políticas ou fabricam informações para satisfazer pedidos do utilizador nas tarefas de Alucinação, sublinhando a necessidade de agentes LLM mais confiáveis e autoconscientes em ambientes do mundo real.