Afinación Configurable de Preferencias con Datos Sintéticos Guiados por Rúbrica

Resumen

Los modelos de retroalimentación humana para la alineación de la inteligencia artificial, como aquellos que sustentan la Optimización Directa de Preferencias (DPO, por sus siglas en inglés), suelen incorporar un conjunto singular y estático de preferencias, lo que limita su adaptabilidad. Este artículo cuestiona la suposición de preferencias monolíticas al introducir el Ajuste Configurable de Preferencias (CPT, por sus siglas en inglés), un marco novedoso que dota a los modelos de lenguaje de la capacidad de ajustar dinámicamente su comportamiento en función de directivas explícitas e interpretables por humanos. CPT aprovecha datos de preferencias generados sintéticamente, condicionados por indicaciones del sistema derivadas de rúbricas estructuradas y detalladas que definen atributos deseados, como el estilo de escritura. Al ajustar finamente con estas preferencias guiadas por rúbricas, el modelo de lenguaje aprende a modular sus salidas durante la inferencia en respuesta a la indicación del sistema, sin necesidad de reentrenamiento. Este enfoque no solo ofrece un control detallado, sino que también proporciona un mecanismo para modelar retroalimentación humana más matizada y dependiente del contexto. Varios artefactos experimentales, como el código de entrenamiento, conjuntos de datos generados y modelos ajustados, están disponibles en https://github.com/vicgalle/configurable-preference-tuning.

English

Models of human feedback for AI alignment, such as those underpinning Direct Preference Optimization (DPO), often bake in a singular, static set of preferences, limiting adaptability. This paper challenges the assumption of monolithic preferences by introducing Configurable Preference Tuning (CPT), a novel framework for endowing language models with the ability to dynamically adjust their behavior based on explicit, human-interpretable directives. CPT leverages synthetically generated preference data, conditioned on system prompts derived from structured, fine-grained rubrics that define desired attributes like writing style. By fine-tuning with these rubric-guided preferences, the LLM learns to modulate its outputs at inference time in response to the system prompt, without retraining. This approach not only offers fine-grained control but also provides a mechanism for modeling more nuanced and context-dependent human feedback. Several experimental artifacts, such as training code, generated datasets and fine-tuned models are released at https://github.com/vicgalle/configurable-preference-tuning

Afinación Configurable de Preferencias con Datos Sintéticos Guiados por Rúbrica

Configurable Preference Tuning with Rubric-Guided Synthetic Data

Resumen

Support