Sta taalmodellen in staat om impliciet zelfverbetering te leren uit data.
Enable Language Models to Implicitly Learn Self-Improvement From Data
October 2, 2023
Auteurs: Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond in open-eindetekstgeneratietaken. De inherent open-eindige aard van deze taken impliceert echter dat er altijd ruimte is voor verbetering in de kwaliteit van modelresponsen. Om deze uitdaging aan te pakken, zijn verschillende benaderingen voorgesteld om de prestaties van LLMs te verbeteren. Er is een groeiende focus geweest op het mogelijk maken van LLMs om zelf hun responskwaliteit te verbeteren, waardoor de afhankelijkheid van uitgebreide menselijke annotatie-inspanningen voor het verzamelen van diverse en hoogwaardige trainingsdata wordt verminderd. Recentelijk zijn prompt-gebaseerde methoden veelvuldig onderzocht onder zelfverbeteringsmethoden vanwege hun effectiviteit, efficiëntie en gemak. Deze methoden vereisen echter meestal expliciet en grondig geschreven rubrieken als invoer voor LLMs. Het is kostbaar en uitdagend om handmatig alle benodigde rubrieken af te leiden en te verstrekken met een complex verbeteringsdoel in de echte wereld (bijvoorbeeld behulpzamer en minder schadelijk zijn). Daarom stellen we een Impliciet Zelf-VerbeteringsFramework (PIT) voor dat impliciet het verbeteringsdoel leert uit menselijke voorkeursdata. PIT vereist alleen voorkeursdata die worden gebruikt om beloningsmodellen te trainen, zonder extra menselijke inspanningen. Specifiek herformuleren we het trainingsdoel van reinforcement learning from human feedback (RLHF) — in plaats van de responskwaliteit voor een gegeven invoer te maximaliseren, maximaliseren we het kwaliteitsverschil van de respons geconditioneerd op een referentierespons. Op deze manier wordt PIT impliciet getraind met het verbeteringsdoel om beter aan te sluiten bij menselijke voorkeuren. Experimenten op twee real-world datasets en één synthetische dataset tonen aan dat onze methode significant beter presteert dan prompt-gebaseerde methoden.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
open-ended text generation tasks. However, the inherent open-ended nature of
these tasks implies that there is always room for improvement in the quality of
model responses. To address this challenge, various approaches have been
proposed to enhance the performance of LLMs. There has been a growing focus on
enabling LLMs to self-improve their response quality, thereby reducing the
reliance on extensive human annotation efforts for collecting diverse and
high-quality training data. Recently, prompting-based methods have been widely
explored among self-improvement methods owing to their effectiveness,
efficiency, and convenience. However, those methods usually require explicitly
and thoroughly written rubrics as inputs to LLMs. It is expensive and
challenging to manually derive and provide all necessary rubrics with a
real-world complex goal for improvement (e.g., being more helpful and less
harmful). To this end, we propose an ImPlicit Self-ImprovemenT (PIT) framework
that implicitly learns the improvement goal from human preference data. PIT
only requires preference data that are used to train reward models without
extra human efforts. Specifically, we reformulate the training objective of
reinforcement learning from human feedback (RLHF) -- instead of maximizing
response quality for a given input, we maximize the quality gap of the response
conditioned on a reference response. In this way, PIT is implicitly trained
with the improvement goal of better aligning with human preferences.
Experiments on two real-world datasets and one synthetic dataset show that our
method significantly outperforms prompting-based methods.