ChatPaper.aiChatPaper

Politikverbesserung durch Sprach-Feedback-Modelle

Policy Improvement using Language Feedback Models

February 12, 2024
Autoren: Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté
cs.AI

Zusammenfassung

Wir stellen Language Feedback Models (LFMs) vor, die erwünschtes Verhalten identifizieren – Aktionen, die dazu beitragen, die in der Anweisung spezifizierten Aufgaben zu erreichen – für das Imitationslernen bei der Befolgung von Anweisungen. Um LFMs zu trainieren, erhalten wir Feedback von Large Language Models (LLMs) zu visuellen Trajektorien, die in Sprachbeschreibungen verbalisiert werden. Erstens verbessern wir durch die Verwendung von LFMs zur Identifizierung von erwünschtem Verhalten, das nachgeahmt werden soll, die Aufgabenabschlussrate im Vergleich zu starken Verhaltensklon-Baselines in drei verschiedenen Sprachumgebungen (Touchdown, ScienceWorld und ALFWorld). Zweitens übertreffen LFMs die direkte Vorhersage von Aktionen durch LLMs als Experten, wenn die Anzahl der LLM-Ausgabetoken kontrolliert wird. Drittens generalisieren LFMs auf unbekannte Umgebungen und verbessern die Aufgabenabschlussrate durch eine Runde der Anpassung um 3,5-12,0%. Schließlich kann LFM so modifiziert werden, dass es menscheninterpretierbares Feedback ohne Leistungsverlust liefert, was die menschliche Überprüfung von erwünschtem Verhalten für das Imitationslernen ermöglicht.
English
We introduce Language Feedback Models (LFMs) that identify desirable behaviour - actions that help achieve tasks specified in the instruction - for imitation learning in instruction following. To train LFMs, we obtain feedback from Large Language Models (LLMs) on visual trajectories verbalized to language descriptions. First, by using LFMs to identify desirable behaviour to imitate, we improve in task-completion rate over strong behavioural cloning baselines on three distinct language grounding environments (Touchdown, ScienceWorld, and ALFWorld). Second, LFMs outperform using LLMs as experts to directly predict actions, when controlling for the number of LLM output tokens. Third, LFMs generalize to unseen environments, improving task-completion rate by 3.5-12.0% through one round of adaptation. Finally, LFM can be modified to provide human-interpretable feedback without performance loss, allowing human verification of desirable behaviour for imitation learning.
PDF91December 15, 2024