RL4F: Generierung von natürlichem Sprachfeedback mit Verstärkungslernen zur Reparatur von Modellausgaben
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs
May 15, 2023
Autoren: Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon
cs.AI
Zusammenfassung
Trotz ihres beispiellosen Erfolgs machen selbst die größten Sprachmodelle Fehler. Ähnlich wie Menschen durch Feedback lernen und sich verbessern, wurde in früheren Arbeiten vorgeschlagen, Sprachmodelle mit natürlichem Sprachfeedback zu versorgen, um sie bei der Korrektur ihrer Ausgaben zu unterstützen. Da menschlich generierte Kritiken teuer zu beschaffen sind, haben Forscher gelernte Kritikgeneratoren als Ersatz für menschliche Kritiker entwickelt, in der Annahme, dass nachgelagerte Modelle trainiert werden können, um das generierte Feedback zu nutzen. Dieser Ansatz ist jedoch nicht auf Black-Box-Modelle oder Modelle mit eingeschränktem Zugriff wie ChatGPT anwendbar, da diese nicht feinabgestimmt werden können. Darüber hinaus ist die Feinabstimmung im Zeitalter großer allgemeiner Sprachagenten weder rechen- noch speicherplatzeffizient, da sie zu mehreren Kopien des Netzwerks führt. In dieser Arbeit stellen wir RL4F (Reinforcement Learning for Feedback) vor, ein Multi-Agenten-Kollaborationsframework, in dem der Kritikgenerator darauf trainiert wird, die Endaufgabenleistung von GPT-3, einem festen Modell, das mehr als 200-mal größer ist, zu maximieren. RL4F erzeugt Kritiken, die GPT-3 dabei helfen, seine Ausgaben zu überarbeiten. Wir untersuchen drei Datensätze für Aktionsplanung, Zusammenfassung und Alphabetisierung und zeigen Verbesserungen (~5 % im Durchschnitt) in mehreren Textähnlichkeitsmetriken gegenüber starken Baselines in allen drei Aufgaben.
English
Despite their unprecedented success, even the largest language models make
mistakes. Similar to how humans learn and improve using feedback, previous work
proposed providing language models with natural language feedback to guide them
in repairing their outputs. Because human-generated critiques are expensive to
obtain, researchers have devised learned critique generators in lieu of human
critics while assuming one can train downstream models to utilize generated
feedback. However, this approach does not apply to black-box or limited access
models such as ChatGPT, as they cannot be fine-tuned. Moreover, in the era of
large general-purpose language agents, fine-tuning is neither computationally
nor spatially efficient as it results in multiple copies of the network. In
this work, we introduce RL4F (Reinforcement Learning for Feedback), a
multi-agent collaborative framework where the critique generator is trained to
maximize end-task performance of GPT-3, a fixed model more than 200 times its
size. RL4F produces critiques that help GPT-3 revise its outputs. We study
three datasets for action planning, summarization and alphabetization and show
improvements (~5% on average) in multiple text similarity metrics over strong
baselines across all three tasks.