Ermöglichen Sie Sprachmodellen, selbstverbesserndes Lernen implizit aus Daten zu erlernen.
Enable Language Models to Implicitly Learn Self-Improvement From Data
October 2, 2023
papers.authors: Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei offenen Textgenerierungsaufgaben gezeigt. Die inhärente Offenheit dieser Aufgaben impliziert jedoch, dass es immer Raum für Verbesserungen in der Qualität der Modellantworten gibt. Um diese Herausforderung zu bewältigen, wurden verschiedene Ansätze vorgeschlagen, um die Leistung von LLMs zu steigern. Es gibt zunehmend Fokus darauf, LLMs zu ermöglichen, ihre Antwortqualität selbst zu verbessern, wodurch die Abhängigkeit von umfangreichen menschlichen Annotationsbemühungen zur Sammlung vielfältiger und hochwertiger Trainingsdaten verringert wird. Kürzlich wurden Prompting-basierte Methoden unter den Selbstverbesserungsmethoden aufgrund ihrer Effektivität, Effizienz und Bequemlichkeit weitgehend erforscht. Diese Methoden erfordern jedoch in der Regel explizit und gründlich formulierte Bewertungskriterien als Eingaben für die LLMs. Es ist kostspielig und herausfordernd, manuell alle notwendigen Bewertungskriterien für ein komplexes Verbesserungsziel in der realen Welt (z. B. hilfreicher und weniger schädlich zu sein) abzuleiten und bereitzustellen. Zu diesem Zweck schlagen wir ein ImPlicit Self-ImprovemenT (PIT)-Framework vor, das das Verbesserungsziel implizit aus menschlichen Präferenzdaten lernt. PIT benötigt lediglich Präferenzdaten, die zur Trainierung von Belohnungsmodellen verwendet werden, ohne zusätzlichen menschlichen Aufwand. Konkret reformulieren wir das Trainingsziel des Reinforcement Learning from Human Feedback (RLHF) – anstatt die Antwortqualität für eine gegebene Eingabe zu maximieren, maximieren wir die Qualitätslücke der Antwort, die auf eine Referenzantwort konditioniert ist. Auf diese Weise wird PIT implizit mit dem Verbesserungsziel trainiert, besser mit menschlichen Präferenzen übereinzustimmen. Experimente mit zwei realen Datensätzen und einem synthetischen Datensatz zeigen, dass unsere Methode Prompting-basierte Methoden deutlich übertrifft.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
open-ended text generation tasks. However, the inherent open-ended nature of
these tasks implies that there is always room for improvement in the quality of
model responses. To address this challenge, various approaches have been
proposed to enhance the performance of LLMs. There has been a growing focus on
enabling LLMs to self-improve their response quality, thereby reducing the
reliance on extensive human annotation efforts for collecting diverse and
high-quality training data. Recently, prompting-based methods have been widely
explored among self-improvement methods owing to their effectiveness,
efficiency, and convenience. However, those methods usually require explicitly
and thoroughly written rubrics as inputs to LLMs. It is expensive and
challenging to manually derive and provide all necessary rubrics with a
real-world complex goal for improvement (e.g., being more helpful and less
harmful). To this end, we propose an ImPlicit Self-ImprovemenT (PIT) framework
that implicitly learns the improvement goal from human preference data. PIT
only requires preference data that are used to train reward models without
extra human efforts. Specifically, we reformulate the training objective of
reinforcement learning from human feedback (RLHF) -- instead of maximizing
response quality for a given input, we maximize the quality gap of the response
conditioned on a reference response. In this way, PIT is implicitly trained
with the improvement goal of better aligning with human preferences.
Experiments on two real-world datasets and one synthetic dataset show that our
method significantly outperforms prompting-based methods.