ChatPaper.aiChatPaper

Хорошее начало — половина дела: согласование предпочтений при ограниченных ресурсах через декодирование от слабого к сильному

Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding

June 9, 2025
Авторы: Feifan Song, Shaohang Wei, Wen Luo, Yuxuan Fan, Tianyu Liu, Guoyin Wang, Houfeng Wang
cs.AI

Аннотация

Крупные языковые модели (LLM) требуют согласования с человеческими предпочтениями, чтобы избежать генерации оскорбительного, ложного или бессмысленного контента. В последнее время популярны методы согласования LLM с ограниченными ресурсами, хотя они по-прежнему сталкиваются с трудностями в получении как высококачественного, так и согласованного контента. Вдохновленные наблюдением, что сложность генерации согласованных ответов сосредоточена в начале декодирования, мы предлагаем новый фреймворк, Weak-to-Strong Decoding (WSD), для улучшения способности базовых моделей к согласованию с помощью руководства небольшой согласованной модели. Небольшая модель сначала создает хорошо согласованные начала, за которыми следует продолжение крупной базовой модели, управляемое хорошо продуманным механизмом автоматического переключения. Мы также собираем новый набор данных, GenerAlign, для тонкой настройки небольшой модели Pilot-3B в качестве черновой модели, что эффективно улучшает различные базовые модели в рамках фреймворка WSD, превосходя все базовые методы, при этом избегая ухудшения на последующих задачах, известного как "налог на согласование". Дополнительно проводятся обширные эксперименты для изучения влияния различных настроек и временной эффективности, а также глубокий анализ внутренних механизмов WSD.
English
Large Language Models (LLMs) require alignment with human preferences to avoid generating offensive, false, or meaningless content. Recently, low-resource methods for LLM alignment have been popular, while still facing challenges in obtaining both high-quality and aligned content. Motivated by the observation that the difficulty of generating aligned responses is concentrated at the beginning of decoding, we propose a novel framework, Weak-to-Strong Decoding (WSD), to enhance the alignment ability of base models by the guidance of a small aligned model. The small model first drafts well-aligned beginnings, followed by the large base model to continue the rest, controlled by a well-designed auto-switch mechanism. We also collect a new dataset, GenerAlign, to fine-tune a small-sized Pilot-3B as the draft model, which effectively enhances different base models under the WSD framework to outperform all baseline methods, while avoiding degradation on downstream tasks, termed as the alignment tax. Extensive experiments are further conducted to examine the impact of different settings and time efficiency, as well as analyses on the intrinsic mechanisms of WSD in depth.
PDF72June 10, 2025