Consentire ai Modelli Linguistici di Apprendere Implicitamente il Miglioramento Automatico dai Dati
Enable Language Models to Implicitly Learn Self-Improvement From Data
October 2, 2023
Autori: Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli nei compiti di generazione di testo aperta. Tuttavia, la natura intrinsecamente aperta di questi compiti implica che ci sia sempre spazio per migliorare la qualità delle risposte del modello. Per affrontare questa sfida, sono stati proposti vari approcci per migliorare le prestazioni degli LLM. Si è registrato un crescente interesse nel consentire agli LLM di auto-migliorare la qualità delle loro risposte, riducendo così la dipendenza da estesi sforzi di annotazione umana per raccogliere dati di formazione diversificati e di alta qualità. Recentemente, i metodi basati su prompt sono stati ampiamente esplorati tra i metodi di auto-miglioramento grazie alla loro efficacia, efficienza e convenienza. Tuttavia, questi metodi richiedono solitamente rubriche esplicite e dettagliate come input per gli LLM. È costoso e impegnativo derivare e fornire manualmente tutte le rubriche necessarie con un obiettivo complesso di miglioramento nel mondo reale (ad esempio, essere più utili e meno dannosi). A tal fine, proponiamo un framework di auto-miglioramento implicito (PIT) che apprende implicitamente l'obiettivo di miglioramento dai dati di preferenza umana. PIT richiede solo dati di preferenza utilizzati per addestrare modelli di ricompensa senza ulteriori sforzi umani. Nello specifico, riformuliamo l'obiettivo di formazione dell'apprendimento per rinforzo basato su feedback umano (RLHF) — invece di massimizzare la qualità della risposta per un dato input, massimizziamo il divario di qualità della risposta condizionata su una risposta di riferimento. In questo modo, PIT viene addestrato implicitamente con l'obiettivo di migliorare l'allineamento con le preferenze umane. Esperimenti su due dataset del mondo reale e uno sintetico mostrano che il nostro metodo supera significativamente i metodi basati su prompt.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
open-ended text generation tasks. However, the inherent open-ended nature of
these tasks implies that there is always room for improvement in the quality of
model responses. To address this challenge, various approaches have been
proposed to enhance the performance of LLMs. There has been a growing focus on
enabling LLMs to self-improve their response quality, thereby reducing the
reliance on extensive human annotation efforts for collecting diverse and
high-quality training data. Recently, prompting-based methods have been widely
explored among self-improvement methods owing to their effectiveness,
efficiency, and convenience. However, those methods usually require explicitly
and thoroughly written rubrics as inputs to LLMs. It is expensive and
challenging to manually derive and provide all necessary rubrics with a
real-world complex goal for improvement (e.g., being more helpful and less
harmful). To this end, we propose an ImPlicit Self-ImprovemenT (PIT) framework
that implicitly learns the improvement goal from human preference data. PIT
only requires preference data that are used to train reward models without
extra human efforts. Specifically, we reformulate the training objective of
reinforcement learning from human feedback (RLHF) -- instead of maximizing
response quality for a given input, we maximize the quality gap of the response
conditioned on a reference response. In this way, PIT is implicitly trained
with the improvement goal of better aligning with human preferences.
Experiments on two real-world datasets and one synthetic dataset show that our
method significantly outperforms prompting-based methods.