Amélioration des politiques grâce aux modèles de feedback linguistique
Policy Improvement using Language Feedback Models
February 12, 2024
Auteurs: Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté
cs.AI
Résumé
Nous présentons les Modèles de Feedback Langagier (Language Feedback Models, LFMs) qui identifient les comportements souhaitables - des actions qui aident à accomplir les tâches spécifiées dans les instructions - pour l'apprentissage par imitation dans le suivi d'instructions. Pour entraîner les LFMs, nous obtenons des feedbacks de Modèles de Langage à Grande Échelle (Large Language Models, LLMs) sur des trajectoires visuelles verbalisées en descriptions langagières. Premièrement, en utilisant les LFMs pour identifier les comportements souhaitables à imiter, nous améliorons le taux d'accomplissement des tâches par rapport à des bases solides de clonage comportemental dans trois environnements distincts de mise en correspondance langagière (Touchdown, ScienceWorld et ALFWorld). Deuxièmement, les LFMs surpassent l'utilisation des LLMs comme experts pour prédire directement les actions, en contrôlant le nombre de tokens de sortie des LLMs. Troisièmement, les LFMs généralisent à des environnements non vus, améliorant le taux d'accomplissement des tâches de 3,5 à 12,0 % grâce à une seule ronde d'adaptation. Enfin, les LFMs peuvent être modifiés pour fournir un feedback interprétable par l'homme sans perte de performance, permettant la vérification humaine des comportements souhaitables pour l'apprentissage par imitation.
English
We introduce Language Feedback Models (LFMs) that identify desirable
behaviour - actions that help achieve tasks specified in the instruction - for
imitation learning in instruction following. To train LFMs, we obtain feedback
from Large Language Models (LLMs) on visual trajectories verbalized to language
descriptions. First, by using LFMs to identify desirable behaviour to imitate,
we improve in task-completion rate over strong behavioural cloning baselines on
three distinct language grounding environments (Touchdown, ScienceWorld, and
ALFWorld). Second, LFMs outperform using LLMs as experts to directly predict
actions, when controlling for the number of LLM output tokens. Third, LFMs
generalize to unseen environments, improving task-completion rate by 3.5-12.0%
through one round of adaptation. Finally, LFM can be modified to provide
human-interpretable feedback without performance loss, allowing human
verification of desirable behaviour for imitation learning.