SwiftSage: Генеративный агент с быстрым и медленным мышлением для выполнения сложных интерактивных задач
SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks
May 27, 2023
Авторы: Bill Yuchen Lin, Yicheng Fu, Karina Yang, Prithviraj Ammanabrolu, Faeze Brahman, Shiyu Huang, Chandra Bhagavatula, Yejin Choi, Xiang Ren
cs.AI
Аннотация
Мы представляем SwiftSage — новый фреймворк для агентов, вдохновленный теорией двойственных процессов человеческого познания и разработанный для превосходства в планировании действий в сложных задачах интерактивного рассуждения. SwiftSage объединяет преимущества клонирования поведения и использования подсказок для больших языковых моделей (LLM) с целью повышения эффективности выполнения задач. Фреймворк состоит из двух основных модулей: модуля Swift, представляющего быстрое и интуитивное мышление, и модуля Sage, имитирующего осознанные мыслительные процессы. Модуль Swift представляет собой небольшую кодирующе-декодирующую языковую модель, дообученную на траекториях действий агента-оракула, в то время как модуль Sage использует LLM, такие как GPT-4, для планирования подцелей и их привязки к реальности. Мы разработали эвристический метод для гармоничной интеграции двух модулей, что приводит к более эффективному и устойчивому процессу решения задач. На 30 задачах из бенчмарка ScienceWorld SwiftSage значительно превосходит другие методы, такие как SayCan, ReAct и Reflexion, демонстрируя свою эффективность в решении сложных реальных задач.
English
We introduce SwiftSage, a novel agent framework inspired by the dual-process
theory of human cognition, designed to excel in action planning for complex
interactive reasoning tasks. SwiftSage integrates the strengths of behavior
cloning and prompting large language models (LLMs) to enhance task completion
performance. The framework comprises two primary modules: the Swift module,
representing fast and intuitive thinking, and the Sage module, emulating
deliberate thought processes. The Swift module is a small encoder-decoder LM
fine-tuned on the oracle agent's action trajectories, while the Sage module
employs LLMs such as GPT-4 for subgoal planning and grounding. We develop a
heuristic method to harmoniously integrate the two modules, resulting in a more
efficient and robust problem-solving process. In 30 tasks from the ScienceWorld
benchmark, SwiftSage significantly outperforms other methods such as SayCan,
ReAct, and Reflexion, demonstrating its effectiveness in solving complex
real-world tasks.