ルーブリック誘導型合成データを用いた設定可能な選好チューニング
Configurable Preference Tuning with Rubric-Guided Synthetic Data
June 13, 2025
著者: Víctor Gallego
cs.AI
要旨
AIアラインメントのための人間のフィードバックモデル、例えばDirect Preference Optimization(DPO)を支えるモデルは、しばしば単一で静的な選好セットを組み込んでおり、適応性が制限されている。本論文は、単一的な選好を前提とする考え方に挑戦し、Configurable Preference Tuning(CPT)という新しいフレームワークを導入する。CPTは、言語モデルに、明示的で人間が解釈可能な指示に基づいて動的にその振る舞いを調整する能力を与えるものである。CPTは、文章スタイルなどの望ましい属性を定義する構造化された細粒度のルーブリックから導出されたシステムプロンプトに基づいて生成された合成選好データを活用する。これらのルーブリックに導かれた選好を用いてファインチューニングを行うことで、LLMは推論時にシステムプロンプトに応じて出力を調整することを学習し、再トレーニングを必要としない。このアプローチは、細粒度の制御を提供するだけでなく、よりニュアンスがあり文脈依存的な人間のフィードバックをモデル化するメカニズムも提供する。トレーニングコード、生成されたデータセット、ファインチューニングされたモデルなどのいくつかの実験成果物は、https://github.com/vicgalle/configurable-preference-tuning で公開されている。
English
Models of human feedback for AI alignment, such as those underpinning Direct
Preference Optimization (DPO), often bake in a singular, static set of
preferences, limiting adaptability. This paper challenges the assumption of
monolithic preferences by introducing Configurable Preference Tuning (CPT), a
novel framework for endowing language models with the ability to dynamically
adjust their behavior based on explicit, human-interpretable directives. CPT
leverages synthetically generated preference data, conditioned on system
prompts derived from structured, fine-grained rubrics that define desired
attributes like writing style. By fine-tuning with these rubric-guided
preferences, the LLM learns to modulate its outputs at inference time in
response to the system prompt, without retraining. This approach not only
offers fine-grained control but also provides a mechanism for modeling more
nuanced and context-dependent human feedback. Several experimental artifacts,
such as training code, generated datasets and fine-tuned models are released at
https://github.com/vicgalle/configurable-preference-tuning