Un Buon Inizio è Metà dell'Opera: Allineamento delle Preferenze con Risorse Limitare tramite Decodifica da Debole a Forte
Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding
June 9, 2025
Autori: Feifan Song, Shaohang Wei, Wen Luo, Yuxuan Fan, Tianyu Liu, Guoyin Wang, Houfeng Wang
cs.AI
Abstract
I Large Language Model (LLM) richiedono un allineamento con le preferenze umane per evitare di generare contenuti offensivi, falsi o privi di significato. Recentemente, i metodi a basso consumo di risorse per l'allineamento degli LLM hanno guadagnato popolarità, pur affrontando sfide nel garantire sia contenuti di alta qualità che allineati. Motivati dall'osservazione che la difficoltà di generare risposte allineate si concentra all'inizio del processo di decodifica, proponiamo un nuovo framework, il Weak-to-Strong Decoding (WSD), per migliorare la capacità di allineamento dei modelli di base attraverso la guida di un piccolo modello allineato. Il modello piccolo redige inizialmente degli inizi ben allineati, seguiti dal modello di base di grandi dimensioni che continua il resto, controllato da un meccanismo di auto-switch ben progettato. Abbiamo inoltre raccolto un nuovo dataset, GenerAlign, per ottimizzare un modello di piccole dimensioni, Pilot-3B, come modello di bozza, che migliora efficacemente diversi modelli di base all'interno del framework WSD, superando tutti i metodi di riferimento, evitando al contempo il degrado nelle attività downstream, noto come "tassa di allineamento". Sono stati condotti ulteriori esperimenti per esaminare l'impatto di diverse configurazioni e l'efficienza temporale, nonché analisi approfondite sui meccanismi intrinseci del WSD.
English
Large Language Models (LLMs) require alignment with human preferences to
avoid generating offensive, false, or meaningless content. Recently,
low-resource methods for LLM alignment have been popular, while still facing
challenges in obtaining both high-quality and aligned content. Motivated by the
observation that the difficulty of generating aligned responses is concentrated
at the beginning of decoding, we propose a novel framework, Weak-to-Strong
Decoding (WSD), to enhance the alignment ability of base models by the guidance
of a small aligned model. The small model first drafts well-aligned beginnings,
followed by the large base model to continue the rest, controlled by a
well-designed auto-switch mechanism. We also collect a new dataset, GenerAlign,
to fine-tune a small-sized Pilot-3B as the draft model, which effectively
enhances different base models under the WSD framework to outperform all
baseline methods, while avoiding degradation on downstream tasks, termed as the
alignment tax. Extensive experiments are further conducted to examine the
impact of different settings and time efficiency, as well as analyses on the
intrinsic mechanisms of WSD in depth.