RL4F : Génération de feedback en langage naturel par apprentissage par renforcement pour la correction des sorties de modèles
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs
May 15, 2023
Auteurs: Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon
cs.AI
Résumé
Malgré leur succès sans précédent, même les plus grands modèles de langage commettent des erreurs. De la même manière que les humains apprennent et s'améliorent grâce aux retours d'information, des travaux antérieurs ont proposé de fournir aux modèles de langage des critiques en langage naturel pour les guider dans la révision de leurs sorties. Étant donné que les critiques générées par des humains sont coûteuses à obtenir, les chercheurs ont conçu des générateurs de critiques appris pour remplacer les critiques humains, en supposant que l'on peut entraîner des modèles en aval à utiliser les retours générés. Cependant, cette approche ne s'applique pas aux modèles boîte noire ou à accès limité comme ChatGPT, car ils ne peuvent pas être affinés. De plus, à l'ère des agents de langage généralistes de grande taille, l'affinage n'est ni efficace sur le plan computationnel ni spatial, car il entraîne la création de multiples copies du réseau. Dans ce travail, nous introduisons RL4F (Reinforcement Learning for Feedback), un cadre collaboratif multi-agent où le générateur de critiques est entraîné pour maximiser la performance en tâche finale de GPT-3, un modèle fixe plus de 200 fois plus grand. RL4F produit des critiques qui aident GPT-3 à réviser ses sorties. Nous étudions trois ensembles de données pour la planification d'actions, la synthèse et l'alphabétisation, et montrons des améliorations (~5 % en moyenne) sur plusieurs métriques de similarité textuelle par rapport à des bases de référence solides pour les trois tâches.
English
Despite their unprecedented success, even the largest language models make
mistakes. Similar to how humans learn and improve using feedback, previous work
proposed providing language models with natural language feedback to guide them
in repairing their outputs. Because human-generated critiques are expensive to
obtain, researchers have devised learned critique generators in lieu of human
critics while assuming one can train downstream models to utilize generated
feedback. However, this approach does not apply to black-box or limited access
models such as ChatGPT, as they cannot be fine-tuned. Moreover, in the era of
large general-purpose language agents, fine-tuning is neither computationally
nor spatially efficient as it results in multiple copies of the network. In
this work, we introduce RL4F (Reinforcement Learning for Feedback), a
multi-agent collaborative framework where the critique generator is trained to
maximize end-task performance of GPT-3, a fixed model more than 200 times its
size. RL4F produces critiques that help GPT-3 revise its outputs. We study
three datasets for action planning, summarization and alphabetization and show
improvements (~5% on average) in multiple text similarity metrics over strong
baselines across all three tasks.