Politikverbesserung durch Sprach-Feedback-Modelle
Policy Improvement using Language Feedback Models
February 12, 2024
Autoren: Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté
cs.AI
Zusammenfassung
Wir stellen Language Feedback Models (LFMs) vor, die erwünschtes Verhalten identifizieren – Aktionen, die dazu beitragen, die in der Anweisung spezifizierten Aufgaben zu erreichen – für das Imitationslernen bei der Befolgung von Anweisungen. Um LFMs zu trainieren, erhalten wir Feedback von Large Language Models (LLMs) zu visuellen Trajektorien, die in Sprachbeschreibungen verbalisiert werden. Erstens verbessern wir durch die Verwendung von LFMs zur Identifizierung von erwünschtem Verhalten, das nachgeahmt werden soll, die Aufgabenabschlussrate im Vergleich zu starken Verhaltensklon-Baselines in drei verschiedenen Sprachumgebungen (Touchdown, ScienceWorld und ALFWorld). Zweitens übertreffen LFMs die direkte Vorhersage von Aktionen durch LLMs als Experten, wenn die Anzahl der LLM-Ausgabetoken kontrolliert wird. Drittens generalisieren LFMs auf unbekannte Umgebungen und verbessern die Aufgabenabschlussrate durch eine Runde der Anpassung um 3,5-12,0%. Schließlich kann LFM so modifiziert werden, dass es menscheninterpretierbares Feedback ohne Leistungsverlust liefert, was die menschliche Überprüfung von erwünschtem Verhalten für das Imitationslernen ermöglicht.
English
We introduce Language Feedback Models (LFMs) that identify desirable
behaviour - actions that help achieve tasks specified in the instruction - for
imitation learning in instruction following. To train LFMs, we obtain feedback
from Large Language Models (LLMs) on visual trajectories verbalized to language
descriptions. First, by using LFMs to identify desirable behaviour to imitate,
we improve in task-completion rate over strong behavioural cloning baselines on
three distinct language grounding environments (Touchdown, ScienceWorld, and
ALFWorld). Second, LFMs outperform using LLMs as experts to directly predict
actions, when controlling for the number of LLM output tokens. Third, LFMs
generalize to unseen environments, improving task-completion rate by 3.5-12.0%
through one round of adaptation. Finally, LFM can be modified to provide
human-interpretable feedback without performance loss, allowing human
verification of desirable behaviour for imitation learning.