RL4F: Генерация естественно-языковой обратной связи с использованием обучения с подкреплением для исправления выходных данных модели
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs
May 15, 2023
Авторы: Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon
cs.AI
Аннотация
Несмотря на беспрецедентный успех, даже самые крупные языковые модели допускают ошибки. Подобно тому, как люди учатся и совершенствуются, получая обратную связь, в предыдущих работах предлагалось предоставлять языковым моделям обратную связь на естественном языке, чтобы направлять их в исправлении своих выводов. Поскольку получение критики от человека является дорогостоящим, исследователи разработали обученные генераторы критики в качестве замены человеческим критикам, предполагая, что можно обучить последующие модели использовать сгенерированную обратную связь. Однако этот подход неприменим к моделям с закрытым исходным кодом или ограниченным доступом, таким как ChatGPT, поскольку их нельзя дообучать. Более того, в эпоху крупных универсальных языковых агентов дообучение не является ни вычислительно, ни пространственно эффективным, так как приводит к созданию множества копий сети. В данной работе мы представляем RL4F (Reinforcement Learning for Feedback) — многозадачный коллаборативный фреймворк, в котором генератор критики обучается для максимизации производительности GPT-3 на конечной задаче, при этом GPT-3 является фиксированной моделью, более чем в 200 раз превышающей его размер. RL4F создает критику, которая помогает GPT-3 пересматривать свои выводы. Мы исследуем три набора данных для планирования действий, суммирования и алфавитизации и показываем улучшения (~5% в среднем) по нескольким метрикам текстового сходства по сравнению с сильными базовыми моделями во всех трех задачах.
English
Despite their unprecedented success, even the largest language models make
mistakes. Similar to how humans learn and improve using feedback, previous work
proposed providing language models with natural language feedback to guide them
in repairing their outputs. Because human-generated critiques are expensive to
obtain, researchers have devised learned critique generators in lieu of human
critics while assuming one can train downstream models to utilize generated
feedback. However, this approach does not apply to black-box or limited access
models such as ChatGPT, as they cannot be fine-tuned. Moreover, in the era of
large general-purpose language agents, fine-tuning is neither computationally
nor spatially efficient as it results in multiple copies of the network. In
this work, we introduce RL4F (Reinforcement Learning for Feedback), a
multi-agent collaborative framework where the critique generator is trained to
maximize end-task performance of GPT-3, a fixed model more than 200 times its
size. RL4F produces critiques that help GPT-3 revise its outputs. We study
three datasets for action planning, summarization and alphabetization and show
improvements (~5% on average) in multiple text similarity metrics over strong
baselines across all three tasks.