Planificar, Eliminar y Rastrear -- Los Modelos de Lenguaje son Buenos Maestros para Agentes Embebidos
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents
May 3, 2023
Autores: Yue Wu, So Yeon Min, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Yuanzhi Li, Tom Mitchell, Shrimai Prabhumoye
cs.AI
Resumen
Los modelos de lenguaje preentrenados a gran escala (LLMs, por sus siglas en inglés) capturan conocimiento procedimental sobre el mundo. Trabajos recientes han aprovechado la capacidad de los LLMs para generar planes abstractos con el fin de simplificar tareas de control desafiantes, ya sea mediante la puntuación de acciones o el modelado de acciones (ajuste fino). Sin embargo, la arquitectura Transformer hereda varias limitaciones que dificultan que el LLM funcione directamente como agente: por ejemplo, longitudes de entrada limitadas, ineficiencia en el ajuste fino, sesgos del preentrenamiento e incompatibilidad con entornos no textuales. Para mantener la compatibilidad con un actor entrenable de bajo nivel, proponemos utilizar el conocimiento de los LLMs para simplificar el problema de control, en lugar de resolverlo. Proponemos el marco Planificar, Eliminar y Rastrear (PET, por sus siglas en inglés). El módulo Planificar traduce una descripción de la tarea en una lista de subtareas de alto nivel. El módulo Eliminar oculta objetos y receptáculos irrelevantes de la observación para la subtarea actual. Finalmente, el módulo Rastrear determina si el agente ha completado cada subtarea. En el benchmark AlfWorld de seguimiento de instrucciones, el marco PET logra una mejora significativa del 15% sobre el estado del arte (SOTA) en la generalización de especificaciones de objetivos humanos.
English
Pre-trained large language models (LLMs) capture procedural knowledge about
the world. Recent work has leveraged LLM's ability to generate abstract plans
to simplify challenging control tasks, either by action scoring, or action
modeling (fine-tuning). However, the transformer architecture inherits several
constraints that make it difficult for the LLM to directly serve as the agent:
e.g. limited input lengths, fine-tuning inefficiency, bias from pre-training,
and incompatibility with non-text environments. To maintain compatibility with
a low-level trainable actor, we propose to instead use the knowledge in LLMs to
simplify the control problem, rather than solving it. We propose the Plan,
Eliminate, and Track (PET) framework. The Plan module translates a task
description into a list of high-level sub-tasks. The Eliminate module masks out
irrelevant objects and receptacles from the observation for the current
sub-task. Finally, the Track module determines whether the agent has
accomplished each sub-task. On the AlfWorld instruction following benchmark,
the PET framework leads to a significant 15% improvement over SOTA for
generalization to human goal specifications.