Permettre aux modèles de langage d'apprendre implicitement l'auto-amélioration à partir des données
Enable Language Models to Implicitly Learn Self-Improvement From Data
October 2, 2023
papers.authors: Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) ont démontré des capacités remarquables dans les tâches de génération de texte ouvert. Cependant, la nature intrinsèquement ouverte de ces tâches implique qu'il y a toujours une marge d'amélioration dans la qualité des réponses du modèle. Pour relever ce défi, diverses approches ont été proposées pour améliorer les performances des LLMs. Une attention croissante a été portée sur la capacité des LLMs à s'auto-améliorer en termes de qualité de réponse, réduisant ainsi la dépendance à des efforts d'annotation humaine intensifs pour collecter des données d'entraînement diversifiées et de haute qualité. Récemment, les méthodes basées sur l'incitation (prompting) ont été largement explorées parmi les méthodes d'auto-amélioration en raison de leur efficacité, efficience et commodité. Cependant, ces méthodes nécessitent généralement des rubriques explicitement et minutieusement rédigées comme entrées pour les LLMs. Il est coûteux et difficile de dériver manuellement et de fournir toutes les rubriques nécessaires pour un objectif complexe d'amélioration dans le monde réel (par exemple, être plus utile et moins nuisible). À cette fin, nous proposons un cadre d'Auto-Amélioration Implicite (PIT) qui apprend implicitement l'objectif d'amélioration à partir de données de préférence humaine. PIT ne nécessite que des données de préférence utilisées pour entraîner des modèles de récompense sans efforts humains supplémentaires. Plus précisément, nous reformulons l'objectif d'entraînement de l'apprentissage par renforcement à partir de retours humains (RLHF) — au lieu de maximiser la qualité de la réponse pour une entrée donnée, nous maximisons l'écart de qualité de la réponse conditionnée à une réponse de référence. De cette manière, PIT est implicitement entraîné avec l'objectif d'amélioration de mieux s'aligner sur les préférences humaines. Les expériences sur deux ensembles de données réels et un ensemble de données synthétiques montrent que notre méthode surpasse significativement les méthodes basées sur l'incitation.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
open-ended text generation tasks. However, the inherent open-ended nature of
these tasks implies that there is always room for improvement in the quality of
model responses. To address this challenge, various approaches have been
proposed to enhance the performance of LLMs. There has been a growing focus on
enabling LLMs to self-improve their response quality, thereby reducing the
reliance on extensive human annotation efforts for collecting diverse and
high-quality training data. Recently, prompting-based methods have been widely
explored among self-improvement methods owing to their effectiveness,
efficiency, and convenience. However, those methods usually require explicitly
and thoroughly written rubrics as inputs to LLMs. It is expensive and
challenging to manually derive and provide all necessary rubrics with a
real-world complex goal for improvement (e.g., being more helpful and less
harmful). To this end, we propose an ImPlicit Self-ImprovemenT (PIT) framework
that implicitly learns the improvement goal from human preference data. PIT
only requires preference data that are used to train reward models without
extra human efforts. Specifically, we reformulate the training objective of
reinforcement learning from human feedback (RLHF) -- instead of maximizing
response quality for a given input, we maximize the quality gap of the response
conditioned on a reference response. In this way, PIT is implicitly trained
with the improvement goal of better aligning with human preferences.
Experiments on two real-world datasets and one synthetic dataset show that our
method significantly outperforms prompting-based methods.