Plannen, Elimineren en Volgen -- Taalmodellen zijn Goede Leraren voor Belichaamde Agents

Samenvatting

Voorgetrainde grote taalmodellen (LLMs) bevatten procedurele kennis over de wereld. Recent onderzoek heeft gebruikgemaakt van het vermogen van LLMs om abstracte plannen te genereren om uitdagende controle taken te vereenvoudigen, hetzij door acties te scoren, hetzij door actiemodellering (fine-tuning). Echter erft de transformer-architectuur verschillende beperkingen die het moeilijk maken voor het LLM om direct als agent te dienen: bijvoorbeeld beperkte invoerlengtes, inefficiëntie bij fine-tuning, bias door voorafgaande training, en incompatibiliteit met niet-tekstuele omgevingen. Om compatibiliteit te behouden met een trainbare actor op laag niveau, stellen we voor om de kennis in LLMs te gebruiken om het controleprobleem te vereenvoudigen, in plaats van het op te lossen. We introduceren het Plan, Elimineer en Volg (PET) raamwerk. De Plan module vertaalt een taakbeschrijving naar een lijst van hoogwaardige sub-taken. De Elimineer module maskeert irrelevante objecten en recipiënten uit de observatie voor de huidige sub-taak. Ten slotte bepaalt de Volg module of de agent elke sub-taak heeft voltooid. Op de AlfWorld instructievolgbenchmark leidt het PET raamwerk tot een significante verbetering van 15% ten opzichte van de state-of-the-art voor generalisatie naar menselijke doel specificaties.

English

Pre-trained large language models (LLMs) capture procedural knowledge about the world. Recent work has leveraged LLM's ability to generate abstract plans to simplify challenging control tasks, either by action scoring, or action modeling (fine-tuning). However, the transformer architecture inherits several constraints that make it difficult for the LLM to directly serve as the agent: e.g. limited input lengths, fine-tuning inefficiency, bias from pre-training, and incompatibility with non-text environments. To maintain compatibility with a low-level trainable actor, we propose to instead use the knowledge in LLMs to simplify the control problem, rather than solving it. We propose the Plan, Eliminate, and Track (PET) framework. The Plan module translates a task description into a list of high-level sub-tasks. The Eliminate module masks out irrelevant objects and receptacles from the observation for the current sub-task. Finally, the Track module determines whether the agent has accomplished each sub-task. On the AlfWorld instruction following benchmark, the PET framework leads to a significant 15% improvement over SOTA for generalization to human goal specifications.

Plannen, Elimineren en Volgen -- Taalmodellen zijn Goede Leraren voor Belichaamde Agents

Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents

Samenvatting

Support