SmartPlay: Um Benchmark para Modelos de Linguagem como Agentes Inteligentes
SmartPlay : A Benchmark for LLMs as Intelligent Agents
October 2, 2023
Autores: Yue Wu, Xuan Tang, Tom M. Mitchell, Yuanzhi Li
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) recentes demonstraram grande potencial para agentes inteligentes e automação de próxima geração, mas atualmente falta um benchmark sistemático para avaliar as habilidades dos LLMs como agentes. Apresentamos o SmartPlay: tanto um benchmark desafiador quanto uma metodologia para avaliar LLMs como agentes. O SmartPlay consiste em 6 jogos diferentes, incluindo Pedra-Papel-Tesoura, Torre de Hanói e Minecraft. Cada jogo apresenta um cenário único, oferecendo até 20 configurações de avaliação e variações infinitas de ambiente. Cada jogo no SmartPlay desafia de forma única um subconjunto de 9 capacidades importantes de um agente LLM inteligente, incluindo raciocínio com dependências de objetos, planejamento antecipado, raciocínio espacial, aprendizado com histórico e compreensão de aleatoriedade. A distinção entre o conjunto de capacidades testadas em cada jogo nos permite analisar cada capacidade separadamente. O SmartPlay serve não apenas como um campo de testes rigoroso para avaliar o desempenho geral de agentes LLM, mas também como um roteiro para identificar lacunas nas metodologias atuais. Disponibilizamos nosso benchmark em github.com/LLMsmartplay/SmartPlay.
English
Recent large language models (LLMs) have demonstrated great potential toward
intelligent agents and next-gen automation, but there currently lacks a
systematic benchmark for evaluating LLMs' abilities as agents. We introduce
SmartPlay: both a challenging benchmark and a methodology for evaluating LLMs
as agents. SmartPlay consists of 6 different games, including
Rock-Paper-Scissors, Tower of Hanoi, Minecraft. Each game features a unique
setting, providing up to 20 evaluation settings and infinite environment
variations. Each game in SmartPlay uniquely challenges a subset of 9 important
capabilities of an intelligent LLM agent, including reasoning with object
dependencies, planning ahead, spatial reasoning, learning from history, and
understanding randomness. The distinction between the set of capabilities each
game test allows us to analyze each capability separately. SmartPlay serves not
only as a rigorous testing ground for evaluating the overall performance of LLM
agents but also as a road-map for identifying gaps in current methodologies. We
release our benchmark at github.com/LLMsmartplay/SmartPlay