DeAL: Allineamento al Tempo di Decodifica per Modelli Linguistici di Grande Dimensione

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono oggi attesi per generare contenuti allineati alle preferenze umane. Il lavoro attuale si concentra sull'allineamento durante il periodo di addestramento del modello, attraverso tecniche come il Reinforcement Learning con Feedback Umano (RLHF). Tuttavia, non è chiaro se tali metodi siano una scelta efficace per insegnare obiettivi di allineamento al modello. In primo luogo, l'incapacità di incorporare ricompense multiple e personalizzate e la dipendenza dalla visione dello sviluppatore del modello di principi universali e statici sono limitazioni chiave. In secondo luogo, anche le lacune residue nell'addestramento del modello e l'affidabilità di tali approcci sono discutibili (ad esempio, la suscettibilità a jail-breaking anche dopo l'addestramento sulla sicurezza). Per affrontare questi problemi, proponiamo DeAL, un framework che consente all'utente di personalizzare le funzioni di ricompensa e abilita l'Allineamento al Tempo di Decodifica degli LLM (DeAL). Nel suo nucleo, consideriamo la decodifica come un processo di ricerca guidato da euristiche e facilitiamo l'uso di una vasta gamma di obiettivi di allineamento. I nostri esperimenti con vincoli programmatici come i vincoli di parole chiave e lunghezza (ampiamente studiati nell'era pre-LLM) e obiettivi astratti come l'innocuità e l'utilità (proposti nell'era post-LLM) mostrano che possiamo gestire compromessi granulari, migliorare l'aderenza agli obiettivi di allineamento e affrontare le lacune residue negli LLM. Infine, sebbene DeAL possa essere efficacemente abbinato a tecniche RLHF e di prompting, la sua generalità rende la decodifica più lenta, un'ottimizzazione che lasciamo per lavori futuri.

English

Large Language Models (LLMs) are nowadays expected to generate content aligned with human preferences. Current work focuses on alignment at model training time, through techniques such as Reinforcement Learning with Human Feedback (RLHF). However, it is unclear if such methods are an effective choice to teach alignment objectives to the model. First, the inability to incorporate multiple, custom rewards and reliance on a model developer's view of universal and static principles are key limitations. Second, the residual gaps in model training and the reliability of such approaches are also questionable (e.g. susceptibility to jail-breaking even after safety training). To address these, we propose DeAL, a framework that allows the user to customize reward functions and enables Decoding-time Alignment of LLMs (DeAL). At its core, we view decoding as a heuristic-guided search process and facilitate the use of a wide variety of alignment objectives. Our experiments with programmatic constraints such as keyword and length constraints (studied widely in the pre-LLM era) and abstract objectives such as harmlessness and helpfulness (proposed in the post-LLM era) show that we can DeAL with fine-grained trade-offs, improve adherence to alignment objectives, and address residual gaps in LLMs. Lastly, while DeAL can be effectively paired with RLHF and prompting techniques, its generality makes decoding slower, an optimization we leave for future work.

DeAL: Allineamento al Tempo di Decodifica per Modelli Linguistici di Grande Dimensione

DeAL: Decoding-time Alignment for Large Language Models

Abstract

Support