Afinación Configurable de Preferencias con Datos Sintéticos Guiados por Rúbrica
Configurable Preference Tuning with Rubric-Guided Synthetic Data
June 13, 2025
Autores: Víctor Gallego
cs.AI
Resumen
Los modelos de retroalimentación humana para la alineación de la inteligencia artificial, como aquellos que sustentan la Optimización Directa de Preferencias (DPO, por sus siglas en inglés), suelen incorporar un conjunto singular y estático de preferencias, lo que limita su adaptabilidad. Este artículo cuestiona la suposición de preferencias monolíticas al introducir el Ajuste Configurable de Preferencias (CPT, por sus siglas en inglés), un marco novedoso que dota a los modelos de lenguaje de la capacidad de ajustar dinámicamente su comportamiento en función de directivas explícitas e interpretables por humanos. CPT aprovecha datos de preferencias generados sintéticamente, condicionados por indicaciones del sistema derivadas de rúbricas estructuradas y detalladas que definen atributos deseados, como el estilo de escritura. Al ajustar finamente con estas preferencias guiadas por rúbricas, el modelo de lenguaje aprende a modular sus salidas durante la inferencia en respuesta a la indicación del sistema, sin necesidad de reentrenamiento. Este enfoque no solo ofrece un control detallado, sino que también proporciona un mecanismo para modelar retroalimentación humana más matizada y dependiente del contexto. Varios artefactos experimentales, como el código de entrenamiento, conjuntos de datos generados y modelos ajustados, están disponibles en https://github.com/vicgalle/configurable-preference-tuning.
English
Models of human feedback for AI alignment, such as those underpinning Direct
Preference Optimization (DPO), often bake in a singular, static set of
preferences, limiting adaptability. This paper challenges the assumption of
monolithic preferences by introducing Configurable Preference Tuning (CPT), a
novel framework for endowing language models with the ability to dynamically
adjust their behavior based on explicit, human-interpretable directives. CPT
leverages synthetically generated preference data, conditioned on system
prompts derived from structured, fine-grained rubrics that define desired
attributes like writing style. By fine-tuning with these rubric-guided
preferences, the LLM learns to modulate its outputs at inference time in
response to the system prompt, without retraining. This approach not only
offers fine-grained control but also provides a mechanism for modeling more
nuanced and context-dependent human feedback. Several experimental artifacts,
such as training code, generated datasets and fine-tuned models are released at
https://github.com/vicgalle/configurable-preference-tuning