ChatPaper.aiChatPaper

Amélioration des politiques grâce aux modèles de feedback linguistique

Policy Improvement using Language Feedback Models

February 12, 2024
Auteurs: Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté
cs.AI

Résumé

Nous présentons les Modèles de Feedback Langagier (Language Feedback Models, LFMs) qui identifient les comportements souhaitables - des actions qui aident à accomplir les tâches spécifiées dans les instructions - pour l'apprentissage par imitation dans le suivi d'instructions. Pour entraîner les LFMs, nous obtenons des feedbacks de Modèles de Langage à Grande Échelle (Large Language Models, LLMs) sur des trajectoires visuelles verbalisées en descriptions langagières. Premièrement, en utilisant les LFMs pour identifier les comportements souhaitables à imiter, nous améliorons le taux d'accomplissement des tâches par rapport à des bases solides de clonage comportemental dans trois environnements distincts de mise en correspondance langagière (Touchdown, ScienceWorld et ALFWorld). Deuxièmement, les LFMs surpassent l'utilisation des LLMs comme experts pour prédire directement les actions, en contrôlant le nombre de tokens de sortie des LLMs. Troisièmement, les LFMs généralisent à des environnements non vus, améliorant le taux d'accomplissement des tâches de 3,5 à 12,0 % grâce à une seule ronde d'adaptation. Enfin, les LFMs peuvent être modifiés pour fournir un feedback interprétable par l'homme sans perte de performance, permettant la vérification humaine des comportements souhaitables pour l'apprentissage par imitation.
English
We introduce Language Feedback Models (LFMs) that identify desirable behaviour - actions that help achieve tasks specified in the instruction - for imitation learning in instruction following. To train LFMs, we obtain feedback from Large Language Models (LLMs) on visual trajectories verbalized to language descriptions. First, by using LFMs to identify desirable behaviour to imitate, we improve in task-completion rate over strong behavioural cloning baselines on three distinct language grounding environments (Touchdown, ScienceWorld, and ALFWorld). Second, LFMs outperform using LLMs as experts to directly predict actions, when controlling for the number of LLM output tokens. Third, LFMs generalize to unseen environments, improving task-completion rate by 3.5-12.0% through one round of adaptation. Finally, LFM can be modified to provide human-interpretable feedback without performance loss, allowing human verification of desirable behaviour for imitation learning.
PDF91December 15, 2024