Permitir que Modelos de Linguagem Aprendam Implicitamente a Autoaprimoramento a partir de Dados
Enable Language Models to Implicitly Learn Self-Improvement From Data
October 2, 2023
Autores: Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis em tarefas de geração de texto aberto. No entanto, a natureza inerentemente aberta dessas tarefas implica que há sempre espaço para melhorias na qualidade das respostas dos modelos. Para enfrentar esse desafio, várias abordagens foram propostas para aprimorar o desempenho dos LLMs. Tem havido um foco crescente em permitir que os LLMs melhorem por si mesmos a qualidade de suas respostas, reduzindo assim a dependência de extensos esforços de anotação humana para coletar dados de treinamento diversos e de alta qualidade. Recentemente, métodos baseados em _prompting_ têm sido amplamente explorados entre os métodos de autoaperfeiçoamento devido à sua eficácia, eficiência e conveniência. No entanto, esses métodos geralmente exigem rubricas explicitamente e minuciosamente escritas como entradas para os LLMs. É caro e desafiador derivar e fornecer manualmente todas as rubricas necessárias para um objetivo complexo de melhoria no mundo real (por exemplo, ser mais útil e menos prejudicial). Para isso, propomos um framework de Autoaperfeiçoamento Implícito (PIT) que aprende implicitamente o objetivo de melhoria a partir de dados de preferência humana. O PIT requer apenas dados de preferência usados para treinar modelos de recompensa, sem esforços humanos adicionais. Especificamente, reformulamos o objetivo de treinamento do Aprendizado por Reforço com Feedback Humano (RLHF) — em vez de maximizar a qualidade da resposta para uma determinada entrada, maximizamos a diferença de qualidade da resposta condicionada a uma resposta de referência. Dessa forma, o PIT é implicitamente treinado com o objetivo de melhor alinhamento com as preferências humanas. Experimentos em dois conjuntos de dados do mundo real e um conjunto de dados sintético mostram que nosso método supera significativamente os métodos baseados em _prompting_.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
open-ended text generation tasks. However, the inherent open-ended nature of
these tasks implies that there is always room for improvement in the quality of
model responses. To address this challenge, various approaches have been
proposed to enhance the performance of LLMs. There has been a growing focus on
enabling LLMs to self-improve their response quality, thereby reducing the
reliance on extensive human annotation efforts for collecting diverse and
high-quality training data. Recently, prompting-based methods have been widely
explored among self-improvement methods owing to their effectiveness,
efficiency, and convenience. However, those methods usually require explicitly
and thoroughly written rubrics as inputs to LLMs. It is expensive and
challenging to manually derive and provide all necessary rubrics with a
real-world complex goal for improvement (e.g., being more helpful and less
harmful). To this end, we propose an ImPlicit Self-ImprovemenT (PIT) framework
that implicitly learns the improvement goal from human preference data. PIT
only requires preference data that are used to train reward models without
extra human efforts. Specifically, we reformulate the training objective of
reinforcement learning from human feedback (RLHF) -- instead of maximizing
response quality for a given input, we maximize the quality gap of the response
conditioned on a reference response. In this way, PIT is implicitly trained
with the improvement goal of better aligning with human preferences.
Experiments on two real-world datasets and one synthetic dataset show that our
method significantly outperforms prompting-based methods.