Un Buon Inizio è Metà dell'Opera: Allineamento delle Preferenze con Risorse Limitare tramite Decodifica da Debole a Forte

Abstract

I Large Language Model (LLM) richiedono un allineamento con le preferenze umane per evitare di generare contenuti offensivi, falsi o privi di significato. Recentemente, i metodi a basso consumo di risorse per l'allineamento degli LLM hanno guadagnato popolarità, pur affrontando sfide nel garantire sia contenuti di alta qualità che allineati. Motivati dall'osservazione che la difficoltà di generare risposte allineate si concentra all'inizio del processo di decodifica, proponiamo un nuovo framework, il Weak-to-Strong Decoding (WSD), per migliorare la capacità di allineamento dei modelli di base attraverso la guida di un piccolo modello allineato. Il modello piccolo redige inizialmente degli inizi ben allineati, seguiti dal modello di base di grandi dimensioni che continua il resto, controllato da un meccanismo di auto-switch ben progettato. Abbiamo inoltre raccolto un nuovo dataset, GenerAlign, per ottimizzare un modello di piccole dimensioni, Pilot-3B, come modello di bozza, che migliora efficacemente diversi modelli di base all'interno del framework WSD, superando tutti i metodi di riferimento, evitando al contempo il degrado nelle attività downstream, noto come "tassa di allineamento". Sono stati condotti ulteriori esperimenti per esaminare l'impatto di diverse configurazioni e l'efficienza temporale, nonché analisi approfondite sui meccanismi intrinseci del WSD.

English

Large Language Models (LLMs) require alignment with human preferences to avoid generating offensive, false, or meaningless content. Recently, low-resource methods for LLM alignment have been popular, while still facing challenges in obtaining both high-quality and aligned content. Motivated by the observation that the difficulty of generating aligned responses is concentrated at the beginning of decoding, we propose a novel framework, Weak-to-Strong Decoding (WSD), to enhance the alignment ability of base models by the guidance of a small aligned model. The small model first drafts well-aligned beginnings, followed by the large base model to continue the rest, controlled by a well-designed auto-switch mechanism. We also collect a new dataset, GenerAlign, to fine-tune a small-sized Pilot-3B as the draft model, which effectively enhances different base models under the WSD framework to outperform all baseline methods, while avoiding degradation on downstream tasks, termed as the alignment tax. Extensive experiments are further conducted to examine the impact of different settings and time efficiency, as well as analyses on the intrinsic mechanisms of WSD in depth.

Un Buon Inizio è Metà dell'Opera: Allineamento delle Preferenze con Risorse Limitare tramite Decodifica da Debole a Forte

Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding

Abstract

Support