Permitir que los Modelos de Lenguaje Aprendan Implícitamente la Automejora a partir de los Datos
Enable Language Models to Implicitly Learn Self-Improvement From Data
October 2, 2023
Autores: Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en tareas de generación de texto abierto. Sin embargo, la naturaleza inherentemente abierta de estas tareas implica que siempre hay margen para mejorar la calidad de las respuestas del modelo. Para abordar este desafío, se han propuesto diversos enfoques para mejorar el rendimiento de los LLMs. Ha habido un creciente interés en permitir que los LLMs se auto-mejoren en la calidad de sus respuestas, reduciendo así la dependencia de extensos esfuerzos de anotación humana para recopilar datos de entrenamiento diversos y de alta calidad. Recientemente, los métodos basados en "prompting" han sido ampliamente explorados entre los métodos de auto-mejora debido a su efectividad, eficiencia y conveniencia. Sin embargo, estos métodos suelen requerir rúbricas explícitas y detalladas como entradas para los LLMs. Es costoso y desafiante derivar y proporcionar manualmente todas las rúbricas necesarias para un objetivo complejo de mejora en el mundo real (por ejemplo, ser más útil y menos dañino). Para ello, proponemos un marco de Auto-MejoRa ImPlícita (PIT, por sus siglas en inglés) que aprende implícitamente el objetivo de mejora a partir de datos de preferencias humanas. PIT solo requiere datos de preferencias que se utilizan para entrenar modelos de recompensa sin esfuerzos humanos adicionales. Específicamente, reformulamos el objetivo de entrenamiento del Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés): en lugar de maximizar la calidad de la respuesta para una entrada dada, maximizamos la brecha de calidad de la respuesta condicionada a una respuesta de referencia. De esta manera, PIT se entrena implícitamente con el objetivo de mejorar la alineación con las preferencias humanas. Los experimentos en dos conjuntos de datos del mundo real y uno sintético muestran que nuestro método supera significativamente a los métodos basados en "prompting".
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
open-ended text generation tasks. However, the inherent open-ended nature of
these tasks implies that there is always room for improvement in the quality of
model responses. To address this challenge, various approaches have been
proposed to enhance the performance of LLMs. There has been a growing focus on
enabling LLMs to self-improve their response quality, thereby reducing the
reliance on extensive human annotation efforts for collecting diverse and
high-quality training data. Recently, prompting-based methods have been widely
explored among self-improvement methods owing to their effectiveness,
efficiency, and convenience. However, those methods usually require explicitly
and thoroughly written rubrics as inputs to LLMs. It is expensive and
challenging to manually derive and provide all necessary rubrics with a
real-world complex goal for improvement (e.g., being more helpful and less
harmful). To this end, we propose an ImPlicit Self-ImprovemenT (PIT) framework
that implicitly learns the improvement goal from human preference data. PIT
only requires preference data that are used to train reward models without
extra human efforts. Specifically, we reformulate the training objective of
reinforcement learning from human feedback (RLHF) -- instead of maximizing
response quality for a given input, we maximize the quality gap of the response
conditioned on a reference response. In this way, PIT is implicitly trained
with the improvement goal of better aligning with human preferences.
Experiments on two real-world datasets and one synthetic dataset show that our
method significantly outperforms prompting-based methods.