Goed Begonnen is Half Gewonnen: Voorkeursafstemming met Beperkte Middelen door Zwak-naar-Sterk Decodering
Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding
June 9, 2025
Auteurs: Feifan Song, Shaohang Wei, Wen Luo, Yuxuan Fan, Tianyu Liu, Guoyin Wang, Houfeng Wang
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) moeten worden afgestemd op menselijke voorkeuren om te voorkomen dat ze aanstootgevende, onjuiste of betekenisloze inhoud genereren. Onlangs zijn methoden met weinig middelen voor het afstemmen van LLMs populair geworden, hoewel ze nog steeds uitdagingen ondervinden bij het verkrijgen van zowel hoogwaardige als afgestemde inhoud. Gemotiveerd door de observatie dat de moeilijkheid van het genereren van afgestemde reacties geconcentreerd is aan het begin van het decoderen, stellen we een nieuw raamwerk voor, Weak-to-Strong Decoding (WSD), om het afstemmingsvermogen van basismodellen te verbeteren door de begeleiding van een klein afgestemd model. Het kleine model maakt eerst goed afgestemde beginteksten, waarna het grote basismodel de rest voortzet, gecontroleerd door een goed ontworpen automatisch schakelmechanisme. We verzamelen ook een nieuwe dataset, GenerAlign, om een klein Pilot-3B-model af te stemmen als het conceptmodel, wat verschillende basismodellen onder het WSD-raamwerk effectief verbetert om alle baseline-methoden te overtreffen, terwijl degradatie op downstream taken wordt vermeden, ook wel bekend als de 'alignment tax'. Uitgebreide experimenten worden verder uitgevoerd om de impact van verschillende instellingen en tijdefficiëntie te onderzoeken, evenals diepgaande analyses van de intrinsieke mechanismen van WSD.
English
Large Language Models (LLMs) require alignment with human preferences to
avoid generating offensive, false, or meaningless content. Recently,
low-resource methods for LLM alignment have been popular, while still facing
challenges in obtaining both high-quality and aligned content. Motivated by the
observation that the difficulty of generating aligned responses is concentrated
at the beginning of decoding, we propose a novel framework, Weak-to-Strong
Decoding (WSD), to enhance the alignment ability of base models by the guidance
of a small aligned model. The small model first drafts well-aligned beginnings,
followed by the large base model to continue the rest, controlled by a
well-designed auto-switch mechanism. We also collect a new dataset, GenerAlign,
to fine-tune a small-sized Pilot-3B as the draft model, which effectively
enhances different base models under the WSD framework to outperform all
baseline methods, while avoiding degradation on downstream tasks, termed as the
alignment tax. Extensive experiments are further conducted to examine the
impact of different settings and time efficiency, as well as analyses on the
intrinsic mechanisms of WSD in depth.