Réglage Configurable des Préférences avec des Données Synthétiques Guidées par une Grille d'Évaluation

papers.abstract

Les modèles de feedback humain pour l'alignement des IA, tels que ceux qui sous-tendent l'Optimisation Directe des Préférences (Direct Preference Optimization, DPO), intègrent souvent un ensemble unique et statique de préférences, limitant ainsi l'adaptabilité. Cet article remet en question l'hypothèse de préférences monolithiques en introduisant le Réglage Configurable des Préférences (Configurable Preference Tuning, CPT), un cadre novateur permettant d'équiper les modèles de langage de la capacité d'ajuster dynamiquement leur comportement en fonction de directives explicites et interprétables par l'humain. CPT exploite des données de préférences générées de manière synthétique, conditionnées par des prompts système dérivés de grilles structurées et granulaires définissant des attributs souhaités, comme le style d'écriture. En affinant le modèle avec ces préférences guidées par des grilles, le LLM apprend à moduler ses sorties au moment de l'inférence en réponse au prompt système, sans nécessiter de réentraînement. Cette approche offre non seulement un contrôle granulaire, mais fournit également un mécanisme pour modéliser des feedbacks humains plus nuancés et dépendants du contexte. Plusieurs artefacts expérimentaux, tels que le code d'entraînement, les jeux de données générés et les modèles affinés, sont disponibles à l'adresse suivante : https://github.com/vicgalle/configurable-preference-tuning.

English

Models of human feedback for AI alignment, such as those underpinning Direct Preference Optimization (DPO), often bake in a singular, static set of preferences, limiting adaptability. This paper challenges the assumption of monolithic preferences by introducing Configurable Preference Tuning (CPT), a novel framework for endowing language models with the ability to dynamically adjust their behavior based on explicit, human-interpretable directives. CPT leverages synthetically generated preference data, conditioned on system prompts derived from structured, fine-grained rubrics that define desired attributes like writing style. By fine-tuning with these rubric-guided preferences, the LLM learns to modulate its outputs at inference time in response to the system prompt, without retraining. This approach not only offers fine-grained control but also provides a mechanism for modeling more nuanced and context-dependent human feedback. Several experimental artifacts, such as training code, generated datasets and fine-tuned models are released at https://github.com/vicgalle/configurable-preference-tuning

Réglage Configurable des Préférences avec des Données Synthétiques Guidées par une Grille d'Évaluation

Configurable Preference Tuning with Rubric-Guided Synthetic Data

papers.abstract

Support