Настройка предпочтений с использованием синтетических данных на основе рубрик
Configurable Preference Tuning with Rubric-Guided Synthetic Data
June 13, 2025
Авторы: Víctor Gallego
cs.AI
Аннотация
Модели обратной связи человека для согласования ИИ, такие как те, что лежат в основе Оптимизации Прямых Предпочтений (Direct Preference Optimization, DPO), часто включают единый, статичный набор предпочтений, что ограничивает адаптивность. В данной работе оспаривается предположение о монолитности предпочтений путем введения Настраиваемой Тюнинга Предпочтений (Configurable Preference Tuning, CPT) — нового фреймворка, позволяющего языковым моделям динамически корректировать свое поведение на основе явных, интерпретируемых человеком директив. CPT использует синтетически сгенерированные данные о предпочтениях, обусловленные системными подсказками, полученными из структурированных, детализированных критериев, определяющих желаемые атрибуты, такие как стиль письма. Благодаря тонкой настройке с учетом этих критериев, языковая модель обучается модулировать свои выходные данные во время вывода в ответ на системную подсказку без необходимости повторного обучения. Этот подход не только обеспечивает детализированный контроль, но и предоставляет механизм для моделирования более тонкой и контекстно-зависимой обратной связи человека. Несколько экспериментальных артефактов, таких как код для обучения, сгенерированные наборы данных и настроенные модели, опубликованы на https://github.com/vicgalle/configurable-preference-tuning.
English
Models of human feedback for AI alignment, such as those underpinning Direct
Preference Optimization (DPO), often bake in a singular, static set of
preferences, limiting adaptability. This paper challenges the assumption of
monolithic preferences by introducing Configurable Preference Tuning (CPT), a
novel framework for endowing language models with the ability to dynamically
adjust their behavior based on explicit, human-interpretable directives. CPT
leverages synthetically generated preference data, conditioned on system
prompts derived from structured, fine-grained rubrics that define desired
attributes like writing style. By fine-tuning with these rubric-guided
preferences, the LLM learns to modulate its outputs at inference time in
response to the system prompt, without retraining. This approach not only
offers fine-grained control but also provides a mechanism for modeling more
nuanced and context-dependent human feedback. Several experimental artifacts,
such as training code, generated datasets and fine-tuned models are released at
https://github.com/vicgalle/configurable-preference-tuning