SwiftSage: Un Agente Generativo con Pensiero Veloce e Lento per Compiti Interattivi Complessi
SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks
May 27, 2023
Autori: Bill Yuchen Lin, Yicheng Fu, Karina Yang, Prithviraj Ammanabrolu, Faeze Brahman, Shiyu Huang, Chandra Bhagavatula, Yejin Choi, Xiang Ren
cs.AI
Abstract
Introduciamo SwiftSage, un innovativo framework per agenti ispirato alla teoria del doppio processo della cognizione umana, progettato per eccellere nella pianificazione delle azioni per compiti complessi di ragionamento interattivo. SwiftSage integra i punti di forza della clonazione del comportamento e del prompting di grandi modelli linguistici (LLM) per migliorare le prestazioni nel completamento dei task. Il framework è composto da due moduli principali: il modulo Swift, che rappresenta il pensiero rapido e intuitivo, e il modulo Sage, che emula i processi di pensiero deliberato. Il modulo Swift è un piccolo modello linguistico encoder-decoder fine-tuned sulle traiettorie di azioni dell'agente oracolo, mentre il modulo Sage utilizza LLM come GPT-4 per la pianificazione dei sottobiettivi e il grounding. Sviluppiamo un metodo euristico per integrare armoniosamente i due moduli, ottenendo un processo di risoluzione dei problemi più efficiente e robusto. In 30 task del benchmark ScienceWorld, SwiftSage supera significativamente altri metodi come SayCan, ReAct e Reflexion, dimostrando la sua efficacia nella risoluzione di complessi task del mondo reale.
English
We introduce SwiftSage, a novel agent framework inspired by the dual-process
theory of human cognition, designed to excel in action planning for complex
interactive reasoning tasks. SwiftSage integrates the strengths of behavior
cloning and prompting large language models (LLMs) to enhance task completion
performance. The framework comprises two primary modules: the Swift module,
representing fast and intuitive thinking, and the Sage module, emulating
deliberate thought processes. The Swift module is a small encoder-decoder LM
fine-tuned on the oracle agent's action trajectories, while the Sage module
employs LLMs such as GPT-4 for subgoal planning and grounding. We develop a
heuristic method to harmoniously integrate the two modules, resulting in a more
efficient and robust problem-solving process. In 30 tasks from the ScienceWorld
benchmark, SwiftSage significantly outperforms other methods such as SayCan,
ReAct, and Reflexion, demonstrating its effectiveness in solving complex
real-world tasks.