Улучшение политики с использованием моделей языковой обратной связи
Policy Improvement using Language Feedback Models
February 12, 2024
Авторы: Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté
cs.AI
Аннотация
Мы представляем Модели Языковой Обратной Связи (Language Feedback Models, LFMs), которые идентифицируют желательное поведение — действия, способствующие выполнению задач, указанных в инструкции, — для обучения с подражанием в следовании инструкциям. Для обучения LFMs мы получаем обратную связь от Больших Языковых Моделей (Large Language Models, LLMs) на основе визуальных траекторий, переведенных в языковые описания. Во-первых, используя LFMs для идентификации желательного поведения для подражания, мы улучшаем процент выполнения задач по сравнению с сильными базовыми моделями поведенческого клонирования в трех различных средах языкового заземления (Touchdown, ScienceWorld и ALFWorld). Во-вторых, LFMs превосходят использование LLMs в качестве экспертов для прямого предсказания действий при контроле за количеством выходных токенов LLM. В-третьих, LFMs демонстрируют обобщение на незнакомые среды, улучшая процент выполнения задач на 3,5–12,0% после одного раунда адаптации. Наконец, LFM может быть модифицирована для предоставления интерпретируемой человеком обратной связи без потери производительности, что позволяет проверять желательное поведение для обучения с подражанием.
English
We introduce Language Feedback Models (LFMs) that identify desirable
behaviour - actions that help achieve tasks specified in the instruction - for
imitation learning in instruction following. To train LFMs, we obtain feedback
from Large Language Models (LLMs) on visual trajectories verbalized to language
descriptions. First, by using LFMs to identify desirable behaviour to imitate,
we improve in task-completion rate over strong behavioural cloning baselines on
three distinct language grounding environments (Touchdown, ScienceWorld, and
ALFWorld). Second, LFMs outperform using LLMs as experts to directly predict
actions, when controlling for the number of LLM output tokens. Third, LFMs
generalize to unseen environments, improving task-completion rate by 3.5-12.0%
through one round of adaptation. Finally, LFM can be modified to provide
human-interpretable feedback without performance loss, allowing human
verification of desirable behaviour for imitation learning.