ChatPaper.aiChatPaper

Bien Comenzado es Medio Hecho: Alineación de Preferencias con Recursos Limitados mediante Decodificación de Débil a Fuerte

Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding

June 9, 2025
Autores: Feifan Song, Shaohang Wei, Wen Luo, Yuxuan Fan, Tianyu Liu, Guoyin Wang, Houfeng Wang
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) requieren alineación con las preferencias humanas para evitar generar contenido ofensivo, falso o carente de significado. Recientemente, los métodos de bajo recurso para la alineación de LLMs han ganado popularidad, aunque aún enfrentan desafíos para obtener contenido tanto de alta calidad como alineado. Motivados por la observación de que la dificultad de generar respuestas alineadas se concentra al inicio del proceso de decodificación, proponemos un marco novedoso, Decodificación de Débil a Fuerte (WSD, por sus siglas en inglés), para mejorar la capacidad de alineación de los modelos base mediante la guía de un modelo pequeño alineado. El modelo pequeño primero redacta inicios bien alineados, seguido por el modelo base grande para continuar el resto, controlado por un mecanismo de auto-cambio bien diseñado. También recopilamos un nuevo conjunto de datos, GenerAlign, para ajustar un modelo pequeño Pilot-3B como modelo de borrador, lo que mejora efectivamente diferentes modelos base bajo el marco WSD para superar todos los métodos de referencia, evitando al mismo tiempo la degradación en tareas posteriores, conocida como el "impuesto de alineación". Se realizan experimentos exhaustivos para examinar el impacto de diferentes configuraciones y la eficiencia en el tiempo, así como análisis en profundidad sobre los mecanismos intrínsecos de WSD.
English
Large Language Models (LLMs) require alignment with human preferences to avoid generating offensive, false, or meaningless content. Recently, low-resource methods for LLM alignment have been popular, while still facing challenges in obtaining both high-quality and aligned content. Motivated by the observation that the difficulty of generating aligned responses is concentrated at the beginning of decoding, we propose a novel framework, Weak-to-Strong Decoding (WSD), to enhance the alignment ability of base models by the guidance of a small aligned model. The small model first drafts well-aligned beginnings, followed by the large base model to continue the rest, controlled by a well-designed auto-switch mechanism. We also collect a new dataset, GenerAlign, to fine-tune a small-sized Pilot-3B as the draft model, which effectively enhances different base models under the WSD framework to outperform all baseline methods, while avoiding degradation on downstream tasks, termed as the alignment tax. Extensive experiments are further conducted to examine the impact of different settings and time efficiency, as well as analyses on the intrinsic mechanisms of WSD in depth.
PDF72June 10, 2025