Bem Começado é Meio Caminho Andado: Alinhamento de Preferências com Poucos Recursos por meio de Decodificação Fraca para Forte
Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding
June 9, 2025
Autores: Feifan Song, Shaohang Wei, Wen Luo, Yuxuan Fan, Tianyu Liu, Guoyin Wang, Houfeng Wang
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) precisam estar alinhados com as preferências humanas para evitar a geração de conteúdo ofensivo, falso ou sem sentido. Recentemente, métodos de baixo recurso para alinhamento de LLMs têm ganhado popularidade, embora ainda enfrentem desafios para obter conteúdo de alta qualidade e alinhado. Motivados pela observação de que a dificuldade de gerar respostas alinhadas está concentrada no início da decodificação, propomos uma nova estrutura, Decodificação de Fraco para Forte (WSD), para aprimorar a capacidade de alinhamento de modelos base por meio da orientação de um pequeno modelo alinhado. O pequeno modelo primeiro esboça inícios bem alinhados, seguido pelo grande modelo base para continuar o restante, controlado por um mecanismo de auto-mudança bem projetado. Também coletamos um novo conjunto de dados, GenerAlign, para ajustar finamente um Pilot-3B de pequeno porte como modelo de esboço, que efetivamente aprimora diferentes modelos base sob a estrutura WSD para superar todos os métodos de referência, evitando a degradação em tarefas subsequentes, denominada como o imposto de alinhamento. Experimentos extensivos são realizados para examinar o impacto de diferentes configurações e eficiência de tempo, bem como análises aprofundadas sobre os mecanismos intrínsecos do WSD.
English
Large Language Models (LLMs) require alignment with human preferences to
avoid generating offensive, false, or meaningless content. Recently,
low-resource methods for LLM alignment have been popular, while still facing
challenges in obtaining both high-quality and aligned content. Motivated by the
observation that the difficulty of generating aligned responses is concentrated
at the beginning of decoding, we propose a novel framework, Weak-to-Strong
Decoding (WSD), to enhance the alignment ability of base models by the guidance
of a small aligned model. The small model first drafts well-aligned beginnings,
followed by the large base model to continue the rest, controlled by a
well-designed auto-switch mechanism. We also collect a new dataset, GenerAlign,
to fine-tune a small-sized Pilot-3B as the draft model, which effectively
enhances different base models under the WSD framework to outperform all
baseline methods, while avoiding degradation on downstream tasks, termed as the
alignment tax. Extensive experiments are further conducted to examine the
impact of different settings and time efficiency, as well as analyses on the
intrinsic mechanisms of WSD in depth.