Bien commencé, c'est à moitié fait : Alignement des préférences en contexte de ressources limitées par décodage faible-à-fort
Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding
June 9, 2025
Auteurs: Feifan Song, Shaohang Wei, Wen Luo, Yuxuan Fan, Tianyu Liu, Guoyin Wang, Houfeng Wang
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) nécessitent un alignement avec les préférences humaines pour éviter de générer du contenu offensant, faux ou dénué de sens. Récemment, les méthodes à faible ressource pour l'alignement des LLMs ont gagné en popularité, tout en rencontrant des défis pour obtenir à la fois un contenu de haute qualité et aligné. Motivés par l'observation que la difficulté de générer des réponses alignées se concentre au début du décodage, nous proposons un nouveau cadre, le décodage faible à fort (Weak-to-Strong Decoding, WSD), pour améliorer la capacité d'alignement des modèles de base grâce à l'orientation d'un petit modèle aligné. Le petit modèle rédige d'abord des débuts bien alignés, suivis par le grand modèle de base pour continuer le reste, contrôlé par un mécanisme de commutation automatique bien conçu. Nous collectons également un nouveau jeu de données, GenerAlign, pour affiner un modèle de petite taille, Pilot-3B, en tant que modèle de brouillon, ce qui améliore efficacement différents modèles de base dans le cadre du WSD pour surpasser toutes les méthodes de référence, tout en évitant la dégradation des tâches en aval, appelée taxe d'alignement. Des expériences approfondies sont en outre menées pour examiner l'impact de différents paramètres et l'efficacité temporelle, ainsi que des analyses approfondies sur les mécanismes intrinsèques du WSD.
English
Large Language Models (LLMs) require alignment with human preferences to
avoid generating offensive, false, or meaningless content. Recently,
low-resource methods for LLM alignment have been popular, while still facing
challenges in obtaining both high-quality and aligned content. Motivated by the
observation that the difficulty of generating aligned responses is concentrated
at the beginning of decoding, we propose a novel framework, Weak-to-Strong
Decoding (WSD), to enhance the alignment ability of base models by the guidance
of a small aligned model. The small model first drafts well-aligned beginnings,
followed by the large base model to continue the rest, controlled by a
well-designed auto-switch mechanism. We also collect a new dataset, GenerAlign,
to fine-tune a small-sized Pilot-3B as the draft model, which effectively
enhances different base models under the WSD framework to outperform all
baseline methods, while avoiding degradation on downstream tasks, termed as the
alignment tax. Extensive experiments are further conducted to examine the
impact of different settings and time efficiency, as well as analyses on the
intrinsic mechanisms of WSD in depth.