SwiftSage: Um Agente Generativo com Pensamento Rápido e Lento para Tarefas Interativas Complexas
SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks
May 27, 2023
Autores: Bill Yuchen Lin, Yicheng Fu, Karina Yang, Prithviraj Ammanabrolu, Faeze Brahman, Shiyu Huang, Chandra Bhagavatula, Yejin Choi, Xiang Ren
cs.AI
Resumo
Apresentamos o SwiftSage, uma nova estrutura de agente inspirada na teoria do processo duplo da cognição humana, projetada para se destacar no planejamento de ações para tarefas complexas de raciocínio interativo. O SwiftSage integra os pontos fortes da clonagem de comportamento e do prompting de modelos de linguagem de grande escala (LLMs) para melhorar o desempenho na conclusão de tarefas. A estrutura é composta por dois módulos principais: o módulo Swift, que representa o pensamento rápido e intuitivo, e o módulo Sage, que emula processos de pensamento deliberados. O módulo Swift é um pequeno modelo de linguagem codificador-decodificador ajustado nas trajetórias de ação do agente oráculo, enquanto o módulo Sage emprega LLMs como o GPT-4 para o planejamento de subobjetivos e a fundamentação. Desenvolvemos um método heurístico para integrar harmonicamente os dois módulos, resultando em um processo de resolução de problemas mais eficiente e robusto. Em 30 tarefas do benchmark ScienceWorld, o SwiftSage superou significativamente outros métodos como SayCan, ReAct e Reflexion, demonstrando sua eficácia na resolução de tarefas complexas do mundo real.
English
We introduce SwiftSage, a novel agent framework inspired by the dual-process
theory of human cognition, designed to excel in action planning for complex
interactive reasoning tasks. SwiftSage integrates the strengths of behavior
cloning and prompting large language models (LLMs) to enhance task completion
performance. The framework comprises two primary modules: the Swift module,
representing fast and intuitive thinking, and the Sage module, emulating
deliberate thought processes. The Swift module is a small encoder-decoder LM
fine-tuned on the oracle agent's action trajectories, while the Sage module
employs LLMs such as GPT-4 for subgoal planning and grounding. We develop a
heuristic method to harmoniously integrate the two modules, resulting in a more
efficient and robust problem-solving process. In 30 tasks from the ScienceWorld
benchmark, SwiftSage significantly outperforms other methods such as SayCan,
ReAct, and Reflexion, demonstrating its effectiveness in solving complex
real-world tasks.