ChatPaper.aiChatPaper

Configureerbare Voorkeursafstemming met Rubriek-Gestuurde Synthetische Data

Configurable Preference Tuning with Rubric-Guided Synthetic Data

June 13, 2025
Auteurs: Víctor Gallego
cs.AI

Samenvatting

Modellen van menselijke feedback voor AI-afstemming, zoals die ten grondslag liggen aan Direct Preference Optimization (DPO), nemen vaak een enkelvoudige, statische set voorkeuren in zich op, wat de aanpassingsvermogen beperkt. Dit artikel daagt de aanname van monolithische voorkeuren uit door Configurable Preference Tuning (CPT) te introduceren, een nieuw raamwerk om taalmodelen de mogelijkheid te geven hun gedrag dynamisch aan te passen op basis van expliciete, door mensen interpreteerbare richtlijnen. CPT maakt gebruik van synthetisch gegenereerde voorkeursgegevens, geconditioneerd op systeemprompts die zijn afgeleid van gestructureerde, fijnmazige rubrieken die gewenste attributen zoals schrijfstijl definiëren. Door fine-tuning met deze rubriek-gestuurde voorkeuren, leert het LLM zijn uitvoer tijdens inferentie aan te passen in reactie op de systeemprompt, zonder opnieuw te trainen. Deze benadering biedt niet alleen fijnmazige controle, maar biedt ook een mechanisme voor het modelleren van meer genuanceerde en contextafhankelijke menselijke feedback. Verschillende experimentele artefacten, zoals trainingscode, gegenereerde datasets en fine-tuned modellen, worden vrijgegeven op https://github.com/vicgalle/configurable-preference-tuning.
English
Models of human feedback for AI alignment, such as those underpinning Direct Preference Optimization (DPO), often bake in a singular, static set of preferences, limiting adaptability. This paper challenges the assumption of monolithic preferences by introducing Configurable Preference Tuning (CPT), a novel framework for endowing language models with the ability to dynamically adjust their behavior based on explicit, human-interpretable directives. CPT leverages synthetically generated preference data, conditioned on system prompts derived from structured, fine-grained rubrics that define desired attributes like writing style. By fine-tuning with these rubric-guided preferences, the LLM learns to modulate its outputs at inference time in response to the system prompt, without retraining. This approach not only offers fine-grained control but also provides a mechanism for modeling more nuanced and context-dependent human feedback. Several experimental artifacts, such as training code, generated datasets and fine-tuned models are released at https://github.com/vicgalle/configurable-preference-tuning
PDF22June 16, 2025