Planificar, Eliminar y Rastrear -- Los Modelos de Lenguaje son Buenos Maestros para Agentes Embebidos

Resumen

Los modelos de lenguaje preentrenados a gran escala (LLMs, por sus siglas en inglés) capturan conocimiento procedimental sobre el mundo. Trabajos recientes han aprovechado la capacidad de los LLMs para generar planes abstractos con el fin de simplificar tareas de control desafiantes, ya sea mediante la puntuación de acciones o el modelado de acciones (ajuste fino). Sin embargo, la arquitectura Transformer hereda varias limitaciones que dificultan que el LLM funcione directamente como agente: por ejemplo, longitudes de entrada limitadas, ineficiencia en el ajuste fino, sesgos del preentrenamiento e incompatibilidad con entornos no textuales. Para mantener la compatibilidad con un actor entrenable de bajo nivel, proponemos utilizar el conocimiento de los LLMs para simplificar el problema de control, en lugar de resolverlo. Proponemos el marco Planificar, Eliminar y Rastrear (PET, por sus siglas en inglés). El módulo Planificar traduce una descripción de la tarea en una lista de subtareas de alto nivel. El módulo Eliminar oculta objetos y receptáculos irrelevantes de la observación para la subtarea actual. Finalmente, el módulo Rastrear determina si el agente ha completado cada subtarea. En el benchmark AlfWorld de seguimiento de instrucciones, el marco PET logra una mejora significativa del 15% sobre el estado del arte (SOTA) en la generalización de especificaciones de objetivos humanos.

English

Pre-trained large language models (LLMs) capture procedural knowledge about the world. Recent work has leveraged LLM's ability to generate abstract plans to simplify challenging control tasks, either by action scoring, or action modeling (fine-tuning). However, the transformer architecture inherits several constraints that make it difficult for the LLM to directly serve as the agent: e.g. limited input lengths, fine-tuning inefficiency, bias from pre-training, and incompatibility with non-text environments. To maintain compatibility with a low-level trainable actor, we propose to instead use the knowledge in LLMs to simplify the control problem, rather than solving it. We propose the Plan, Eliminate, and Track (PET) framework. The Plan module translates a task description into a list of high-level sub-tasks. The Eliminate module masks out irrelevant objects and receptacles from the observation for the current sub-task. Finally, the Track module determines whether the agent has accomplished each sub-task. On the AlfWorld instruction following benchmark, the PET framework leads to a significant 15% improvement over SOTA for generalization to human goal specifications.

Planificar, Eliminar y Rastrear -- Los Modelos de Lenguaje son Buenos Maestros para Agentes Embebidos

Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents

Resumen

Support