Het segmenteren van tekst en het leren van hun beloningen voor verbeterde RLHF in taalmodellen.
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model
January 6, 2025
Auteurs: Yueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou
cs.AI
Samenvatting
Reinforcement learning van menselijke feedback (RLHF) wordt veelvuldig toegepast om taalmodellen (LM's) af te stemmen op menselijke voorkeuren. Voorheen gebruikte RLHF-methoden namen doorgaans een bandit-formulering aan, die, hoewel intuïtief, voorbijgaat aan de sequentiële aard van LM-generatie en te maken kan krijgen met het probleem van schaarse beloningen. Terwijl recente werken dichte token-niveau RLHF voorstellen, kan het behandelen van elk token als een actie te subtiel zijn voor een juiste beloningstoewijzing. In dit artikel streven we ernaar het beste van beide te combineren door een segment-niveau beloningsmodel te trainen en te gebruiken, dat een beloning toekent aan elk semantisch volledig tekstsegment dat zich uitstrekt over een korte reeks tokens. Voor beloningsleren staat onze methode dynamische tekstsegmentatie toe en is compatibel met standaard datasets voor sequentie-voorkeur. Voor effectieve RL-gebaseerde LM-training tegen segmentbeloning generaliseren we de klassieke scalaire bandit-beloningnormalisatoren naar locatiebewuste normalisatiefuncties en interpoleren we de segmentbeloning voor verdere verdichting. Met deze ontwerpen presteert onze methode competitief op drie populaire RLHF-benchmarks voor LM-beleid: AlpacaEval 2.0, Arena-Hard en MT-Bench. Ablatiestudies worden uitgevoerd om onze methode verder te demonstreren.
English
Reinforcement learning from human feedback (RLHF) has been widely adopted to
align language models (LMs) with human preference. Prior RLHF works typically
take a bandit formulation, which, though intuitive, ignores the sequential
nature of LM generation and can suffer from the sparse reward issue. While
recent works propose dense token-level RLHF, treating each token as an action
may be oversubtle to proper reward assignment. In this paper, we seek to get
the best of both by training and utilizing a segment-level reward model, which
assigns a reward to each semantically complete text segment that spans over a
short sequence of tokens. For reward learning, our method allows dynamic text
segmentation and compatibility with standard sequence-preference datasets. For
effective RL-based LM training against segment reward, we generalize the
classical scalar bandit reward normalizers into location-aware normalizer
functions and interpolate the segment reward for further densification. With
these designs, our method performs competitively on three popular RLHF
benchmarks for LM policy: AlpacaEval 2.0, Arena-Hard, and MT-Bench. Ablation
studies are conducted to further demonstrate our method.Summary
AI-Generated Summary