SwiftSage: Un Agente Generativo con Pensamiento Rápido y Lento para Tareas Interactivas Complejas
SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks
May 27, 2023
Autores: Bill Yuchen Lin, Yicheng Fu, Karina Yang, Prithviraj Ammanabrolu, Faeze Brahman, Shiyu Huang, Chandra Bhagavatula, Yejin Choi, Xiang Ren
cs.AI
Resumen
Presentamos SwiftSage, un novedoso marco de agente inspirado en la teoría de
doble proceso de la cognición humana, diseñado para sobresalir en la planificación
de acciones para tareas complejas de razonamiento interactivo. SwiftSage integra
las fortalezas de la clonación de comportamiento y el uso de modelos de lenguaje
grandes (LLMs) para mejorar el rendimiento en la finalización de tareas. El marco
consta de dos módulos principales: el módulo Swift, que representa el pensamiento
rápido e intuitivo, y el módulo Sage, que emula los procesos de pensamiento
deliberado. El módulo Swift es un pequeño modelo de lenguaje codificador-decodificador
ajustado en las trayectorias de acción del agente oráculo, mientras que el módulo
Sage emplea LLMs como GPT-4 para la planificación y fundamentación de subobjetivos.
Desarrollamos un método heurístico para integrar armoniosamente los dos módulos,
resultando en un proceso de resolución de problemas más eficiente y robusto. En
30 tareas del benchmark ScienceWorld, SwiftSage supera significativamente a otros
métodos como SayCan, ReAct y Reflexion, demostrando su eficacia en la resolución
de tareas complejas del mundo real.
English
We introduce SwiftSage, a novel agent framework inspired by the dual-process
theory of human cognition, designed to excel in action planning for complex
interactive reasoning tasks. SwiftSage integrates the strengths of behavior
cloning and prompting large language models (LLMs) to enhance task completion
performance. The framework comprises two primary modules: the Swift module,
representing fast and intuitive thinking, and the Sage module, emulating
deliberate thought processes. The Swift module is a small encoder-decoder LM
fine-tuned on the oracle agent's action trajectories, while the Sage module
employs LLMs such as GPT-4 for subgoal planning and grounding. We develop a
heuristic method to harmoniously integrate the two modules, resulting in a more
efficient and robust problem-solving process. In 30 tasks from the ScienceWorld
benchmark, SwiftSage significantly outperforms other methods such as SayCan,
ReAct, and Reflexion, demonstrating its effectiveness in solving complex
real-world tasks.