RL4F: Het genereren van natuurlijke taal feedback met reinforcement learning voor het repareren van modeluitvoer
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs
May 15, 2023
Auteurs: Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon
cs.AI
Samenvatting
Ondanks hun ongekende succes maken zelfs de grootste taalmodelen fouten. Net zoals mensen leren en verbeteren door feedback, stelde eerder werk voor om taalmodelen natuurlijke taal feedback te geven om hen te begeleiden bij het herstellen van hun uitvoer. Omdat door mensen gegenereerde kritiek duur is om te verkrijgen, hebben onderzoekers geleerde kritiekgeneratoren ontwikkeld als alternatief voor menselijke critici, in de veronderstelling dat men downstream modellen kan trainen om gegenereerde feedback te gebruiken. Deze aanpak is echter niet van toepassing op black-box of beperkt toegankelijke modellen zoals ChatGPT, omdat deze niet kunnen worden gefinetuned. Bovendien is finetunen in het tijdperk van grote algemene taalmodelen noch computationeel noch ruimtelijk efficiënt, omdat het resulteert in meerdere kopieën van het netwerk. In dit werk introduceren we RL4F (Reinforcement Learning for Feedback), een multi-agent samenwerkingsframework waarin de kritiekgenerator wordt getraind om de eindtaakprestatie van GPT-3, een vast model dat meer dan 200 keer zo groot is, te maximaliseren. RL4F produceert kritiek die GPT-3 helpt bij het herzien van zijn uitvoer. We bestuderen drie datasets voor actieplanning, samenvatting en alfabetisering en laten verbeteringen zien (~5% gemiddeld) in meerdere tekstsimilariteitsmetrieken ten opzichte van sterke basislijnen voor alle drie de taken.
English
Despite their unprecedented success, even the largest language models make
mistakes. Similar to how humans learn and improve using feedback, previous work
proposed providing language models with natural language feedback to guide them
in repairing their outputs. Because human-generated critiques are expensive to
obtain, researchers have devised learned critique generators in lieu of human
critics while assuming one can train downstream models to utilize generated
feedback. However, this approach does not apply to black-box or limited access
models such as ChatGPT, as they cannot be fine-tuned. Moreover, in the era of
large general-purpose language agents, fine-tuning is neither computationally
nor spatially efficient as it results in multiple copies of the network. In
this work, we introduce RL4F (Reinforcement Learning for Feedback), a
multi-agent collaborative framework where the critique generator is trained to
maximize end-task performance of GPT-3, a fixed model more than 200 times its
size. RL4F produces critiques that help GPT-3 revise its outputs. We study
three datasets for action planning, summarization and alphabetization and show
improvements (~5% on average) in multiple text similarity metrics over strong
baselines across all three tasks.