Planen, Eliminieren und Verfolgen -- Sprachmodelle sind gute Lehrer für verkörperte Agenten

Zusammenfassung

Vortrainierte große Sprachmodelle (LLMs) erfassen prozedurales Wissen über die Welt. Neuere Arbeiten haben die Fähigkeit von LLMs genutzt, abstrakte Pläne zu generieren, um anspruchsvolle Steuerungsaufgaben zu vereinfachen, entweder durch Aktionsbewertung oder Aktionsmodellierung (Feinabstimmung). Allerdings bringt die Transformer-Architektur mehrere Einschränkungen mit sich, die es schwierig machen, das LLM direkt als Agenten einzusetzen: z.B. begrenzte Eingabelängen, Ineffizienz bei der Feinabstimmung, Verzerrungen durch das Vortraining und Inkompatibilität mit nicht-textbasierten Umgebungen. Um die Kompatibilität mit einem trainierbaren Low-Level-Akteur zu gewährleisten, schlagen wir vor, das Wissen in LLMs stattdessen zu nutzen, um das Steuerungsproblem zu vereinfachen, anstatt es zu lösen. Wir präsentieren das Plan, Eliminate, and Track (PET) Framework. Das Plan-Modul übersetzt eine Aufgabenbeschreibung in eine Liste von hochrangigen Teilaufgaben. Das Eliminate-Modul blendet irrelevante Objekte und Behälter aus der Beobachtung für die aktuelle Teilaufgabe aus. Schließlich bestimmt das Track-Modul, ob der Agent jede Teilaufgabe erfüllt hat. Auf dem AlfWorld-Instruktionsfolge-Benchmark führt das PET-Framework zu einer signifikanten Verbesserung von 15 % gegenüber dem State-of-the-Art bei der Generalisierung auf menschliche Zielvorgaben.

English

Pre-trained large language models (LLMs) capture procedural knowledge about the world. Recent work has leveraged LLM's ability to generate abstract plans to simplify challenging control tasks, either by action scoring, or action modeling (fine-tuning). However, the transformer architecture inherits several constraints that make it difficult for the LLM to directly serve as the agent: e.g. limited input lengths, fine-tuning inefficiency, bias from pre-training, and incompatibility with non-text environments. To maintain compatibility with a low-level trainable actor, we propose to instead use the knowledge in LLMs to simplify the control problem, rather than solving it. We propose the Plan, Eliminate, and Track (PET) framework. The Plan module translates a task description into a list of high-level sub-tasks. The Eliminate module masks out irrelevant objects and receptacles from the observation for the current sub-task. Finally, the Track module determines whether the agent has accomplished each sub-task. On the AlfWorld instruction following benchmark, the PET framework leads to a significant 15% improvement over SOTA for generalization to human goal specifications.

Planen, Eliminieren und Verfolgen -- Sprachmodelle sind gute Lehrer für verkörperte Agenten

Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents

Zusammenfassung

Support