DeAL: Allineamento al Tempo di Decodifica per Modelli Linguistici di Grande Dimensione
DeAL: Decoding-time Alignment for Large Language Models
February 5, 2024
Autori: James Y. Huang, Sailik Sengupta, Daniele Bonadiman, Yi-an Lai, Arshit Gupta, Nikolaos Pappas, Saab Mansour, Katrin Kirchoff, Dan Roth
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono oggi attesi per generare contenuti allineati alle preferenze umane. Il lavoro attuale si concentra sull'allineamento durante il periodo di addestramento del modello, attraverso tecniche come il Reinforcement Learning con Feedback Umano (RLHF). Tuttavia, non è chiaro se tali metodi siano una scelta efficace per insegnare obiettivi di allineamento al modello. In primo luogo, l'incapacità di incorporare ricompense multiple e personalizzate e la dipendenza dalla visione dello sviluppatore del modello di principi universali e statici sono limitazioni chiave. In secondo luogo, anche le lacune residue nell'addestramento del modello e l'affidabilità di tali approcci sono discutibili (ad esempio, la suscettibilità a jail-breaking anche dopo l'addestramento sulla sicurezza). Per affrontare questi problemi, proponiamo DeAL, un framework che consente all'utente di personalizzare le funzioni di ricompensa e abilita l'Allineamento al Tempo di Decodifica degli LLM (DeAL). Nel suo nucleo, consideriamo la decodifica come un processo di ricerca guidato da euristiche e facilitiamo l'uso di una vasta gamma di obiettivi di allineamento. I nostri esperimenti con vincoli programmatici come i vincoli di parole chiave e lunghezza (ampiamente studiati nell'era pre-LLM) e obiettivi astratti come l'innocuità e l'utilità (proposti nell'era post-LLM) mostrano che possiamo gestire compromessi granulari, migliorare l'aderenza agli obiettivi di allineamento e affrontare le lacune residue negli LLM. Infine, sebbene DeAL possa essere efficacemente abbinato a tecniche RLHF e di prompting, la sua generalità rende la decodifica più lenta, un'ottimizzazione che lasciamo per lavori futuri.
English
Large Language Models (LLMs) are nowadays expected to generate content
aligned with human preferences. Current work focuses on alignment at model
training time, through techniques such as Reinforcement Learning with Human
Feedback (RLHF). However, it is unclear if such methods are an effective choice
to teach alignment objectives to the model. First, the inability to incorporate
multiple, custom rewards and reliance on a model developer's view of universal
and static principles are key limitations. Second, the residual gaps in model
training and the reliability of such approaches are also questionable (e.g.
susceptibility to jail-breaking even after safety training). To address these,
we propose DeAL, a framework that allows the user to customize reward functions
and enables Decoding-time Alignment of LLMs (DeAL). At its core, we view
decoding as a heuristic-guided search process and facilitate the use of a wide
variety of alignment objectives. Our experiments with programmatic constraints
such as keyword and length constraints (studied widely in the pre-LLM era) and
abstract objectives such as harmlessness and helpfulness (proposed in the
post-LLM era) show that we can DeAL with fine-grained trade-offs, improve
adherence to alignment objectives, and address residual gaps in LLMs. Lastly,
while DeAL can be effectively paired with RLHF and prompting techniques, its
generality makes decoding slower, an optimization we leave for future work.