Goed Begonnen is Half Gewonnen: Voorkeursafstemming met Beperkte Middelen door Zwak-naar-Sterk Decodering

Samenvatting

Grote Taalmodellen (LLMs) moeten worden afgestemd op menselijke voorkeuren om te voorkomen dat ze aanstootgevende, onjuiste of betekenisloze inhoud genereren. Onlangs zijn methoden met weinig middelen voor het afstemmen van LLMs populair geworden, hoewel ze nog steeds uitdagingen ondervinden bij het verkrijgen van zowel hoogwaardige als afgestemde inhoud. Gemotiveerd door de observatie dat de moeilijkheid van het genereren van afgestemde reacties geconcentreerd is aan het begin van het decoderen, stellen we een nieuw raamwerk voor, Weak-to-Strong Decoding (WSD), om het afstemmingsvermogen van basismodellen te verbeteren door de begeleiding van een klein afgestemd model. Het kleine model maakt eerst goed afgestemde beginteksten, waarna het grote basismodel de rest voortzet, gecontroleerd door een goed ontworpen automatisch schakelmechanisme. We verzamelen ook een nieuwe dataset, GenerAlign, om een klein Pilot-3B-model af te stemmen als het conceptmodel, wat verschillende basismodellen onder het WSD-raamwerk effectief verbetert om alle baseline-methoden te overtreffen, terwijl degradatie op downstream taken wordt vermeden, ook wel bekend als de 'alignment tax'. Uitgebreide experimenten worden verder uitgevoerd om de impact van verschillende instellingen en tijdefficiëntie te onderzoeken, evenals diepgaande analyses van de intrinsieke mechanismen van WSD.

English

Large Language Models (LLMs) require alignment with human preferences to avoid generating offensive, false, or meaningless content. Recently, low-resource methods for LLM alignment have been popular, while still facing challenges in obtaining both high-quality and aligned content. Motivated by the observation that the difficulty of generating aligned responses is concentrated at the beginning of decoding, we propose a novel framework, Weak-to-Strong Decoding (WSD), to enhance the alignment ability of base models by the guidance of a small aligned model. The small model first drafts well-aligned beginnings, followed by the large base model to continue the rest, controlled by a well-designed auto-switch mechanism. We also collect a new dataset, GenerAlign, to fine-tune a small-sized Pilot-3B as the draft model, which effectively enhances different base models under the WSD framework to outperform all baseline methods, while avoiding degradation on downstream tasks, termed as the alignment tax. Extensive experiments are further conducted to examine the impact of different settings and time efficiency, as well as analyses on the intrinsic mechanisms of WSD in depth.

Goed Begonnen is Half Gewonnen: Voorkeursafstemming met Beperkte Middelen door Zwak-naar-Sterk Decodering

Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding

Samenvatting

Support