Gut begonnen ist halb gewonnen: Präferenzabgleich bei geringen Ressourcen durch schwaches zu starkem Decodieren
Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding
June 9, 2025
Autoren: Feifan Song, Shaohang Wei, Wen Luo, Yuxuan Fan, Tianyu Liu, Guoyin Wang, Houfeng Wang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) müssen mit menschlichen Präferenzen abgestimmt werden, um die Erzeugung von beleidigenden, falschen oder bedeutungslosen Inhalten zu vermeiden. In letzter Zeit haben ressourcenschonende Methoden zur Ausrichtung von LLMs an Popularität gewonnen, stehen jedoch weiterhin vor der Herausforderung, sowohl hochwertige als auch abgestimmte Inhalte zu erzeugen. Motiviert durch die Beobachtung, dass die Schwierigkeit, abgestimmte Antworten zu generieren, zu Beginn des Dekodierens konzentriert ist, schlagen wir ein neuartiges Framework vor, Weak-to-Strong Decoding (WSD), um die Ausrichtungsfähigkeit von Basismodellen durch die Anleitung eines kleinen, abgestimmten Modells zu verbessern. Das kleine Modell entwirft zunächst gut abgestimmte Anfänge, gefolgt vom großen Basismodell, das den Rest fortsetzt, gesteuert durch einen gut durchdachten Auto-Switch-Mechanismus. Wir sammeln auch einen neuen Datensatz, GenerAlign, um ein kleines Pilot-3B-Modell als Entwurfsmodell zu feinabstimmen, das verschiedene Basismodelle im WSD-Framework effektiv verbessert, um alle Baseline-Methoden zu übertreffen, während eine Verschlechterung bei nachgelagerten Aufgaben, bekannt als Alignment Tax, vermieden wird. Umfangreiche Experimente werden weiterhin durchgeführt, um die Auswirkungen verschiedener Einstellungen und die Zeiteffizienz zu untersuchen, sowie um die intrinsischen Mechanismen von WSD eingehend zu analysieren.
English
Large Language Models (LLMs) require alignment with human preferences to
avoid generating offensive, false, or meaningless content. Recently,
low-resource methods for LLM alignment have been popular, while still facing
challenges in obtaining both high-quality and aligned content. Motivated by the
observation that the difficulty of generating aligned responses is concentrated
at the beginning of decoding, we propose a novel framework, Weak-to-Strong
Decoding (WSD), to enhance the alignment ability of base models by the guidance
of a small aligned model. The small model first drafts well-aligned beginnings,
followed by the large base model to continue the rest, controlled by a
well-designed auto-switch mechanism. We also collect a new dataset, GenerAlign,
to fine-tune a small-sized Pilot-3B as the draft model, which effectively
enhances different base models under the WSD framework to outperform all
baseline methods, while avoiding degradation on downstream tasks, termed as the
alignment tax. Extensive experiments are further conducted to examine the
impact of different settings and time efficiency, as well as analyses on the
intrinsic mechanisms of WSD in depth.