RL4F: Geração de Feedback em Linguagem Natural com Aprendizado por Reforço para Correção de Saídas de Modelos
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs
May 15, 2023
Autores: Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon
cs.AI
Resumo
Apesar de seu sucesso sem precedentes, até os maiores modelos de linguagem cometem erros. Semelhante à forma como os humanos aprendem e melhoram com feedback, trabalhos anteriores propuseram fornecer feedback em linguagem natural aos modelos de linguagem para orientá-los na correção de suas saídas. Como as críticas geradas por humanos são caras de obter, os pesquisadores desenvolveram geradores de críticas aprendidos como substitutos para críticos humanos, assumindo que é possível treinar modelos subsequentes para utilizar o feedback gerado. No entanto, essa abordagem não se aplica a modelos de caixa preta ou de acesso limitado, como o ChatGPT, pois eles não podem ser ajustados. Além disso, na era dos grandes agentes de linguagem de propósito geral, o ajuste fino não é eficiente nem computacionalmente nem espacialmente, pois resulta em múltiplas cópias da rede. Neste trabalho, introduzimos o RL4F (Reinforcement Learning for Feedback), uma estrutura colaborativa multiagente em que o gerador de críticas é treinado para maximizar o desempenho da tarefa final do GPT-3, um modelo fixo mais de 200 vezes maior que ele. O RL4F produz críticas que ajudam o GPT-3 a revisar suas saídas. Estudamos três conjuntos de dados para planejamento de ações, sumarização e alfabetização e mostramos melhorias (~5% em média) em múltiplas métricas de similaridade de texto em relação a linhas de base fortes em todas as três tarefas.
English
Despite their unprecedented success, even the largest language models make
mistakes. Similar to how humans learn and improve using feedback, previous work
proposed providing language models with natural language feedback to guide them
in repairing their outputs. Because human-generated critiques are expensive to
obtain, researchers have devised learned critique generators in lieu of human
critics while assuming one can train downstream models to utilize generated
feedback. However, this approach does not apply to black-box or limited access
models such as ChatGPT, as they cannot be fine-tuned. Moreover, in the era of
large general-purpose language agents, fine-tuning is neither computationally
nor spatially efficient as it results in multiple copies of the network. In
this work, we introduce RL4F (Reinforcement Learning for Feedback), a
multi-agent collaborative framework where the critique generator is trained to
maximize end-task performance of GPT-3, a fixed model more than 200 times its
size. RL4F produces critiques that help GPT-3 revise its outputs. We study
three datasets for action planning, summarization and alphabetization and show
improvements (~5% on average) in multiple text similarity metrics over strong
baselines across all three tasks.