ChatPaper.aiChatPaper

Konfigurierbare Präferenzabstimmung mit rubrikgeleiteten synthetischen Daten

Configurable Preference Tuning with Rubric-Guided Synthetic Data

June 13, 2025
Autoren: Víctor Gallego
cs.AI

Zusammenfassung

Modelle für menschliches Feedback zur KI-Ausrichtung, wie sie der Direct Preference Optimization (DPO) zugrunde liegen, basieren oft auf einem einzigen, statischen Satz von Präferenzen, was die Anpassungsfähigkeit einschränkt. Diese Arbeit stellt die Annahme monolithischer Präferenzen in Frage, indem sie Configurable Preference Tuning (CPT) einführt, ein neuartiges Framework, das Sprachmodelle mit der Fähigkeit ausstattet, ihr Verhalten dynamisch anhand expliziter, menschlich interpretierbarer Anweisungen anzupassen. CPT nutzt synthetisch generierte Präferenzdaten, die auf Systemprompts basieren, die aus strukturierten, feingranularen Bewertungskriterien abgeleitet werden, die gewünschte Attribute wie Schreibstil definieren. Durch das Feinabstimmen mit diesen rubrikgeleiteten Präferenzen lernt das LLM, seine Ausgaben zur Inferenzzeit in Reaktion auf den Systemprompt zu modulieren, ohne erneut trainiert zu werden. Dieser Ansatz bietet nicht nur eine feingranulare Kontrolle, sondern stellt auch einen Mechanismus zur Modellierung nuancenreicheren und kontextabhängigen menschlichen Feedbacks bereit. Verschiedene experimentelle Artefakte, wie Trainingscode, generierte Datensätze und feinabgestimmte Modelle, werden unter https://github.com/vicgalle/configurable-preference-tuning veröffentlicht.
English
Models of human feedback for AI alignment, such as those underpinning Direct Preference Optimization (DPO), often bake in a singular, static set of preferences, limiting adaptability. This paper challenges the assumption of monolithic preferences by introducing Configurable Preference Tuning (CPT), a novel framework for endowing language models with the ability to dynamically adjust their behavior based on explicit, human-interpretable directives. CPT leverages synthetically generated preference data, conditioned on system prompts derived from structured, fine-grained rubrics that define desired attributes like writing style. By fine-tuning with these rubric-guided preferences, the LLM learns to modulate its outputs at inference time in response to the system prompt, without retraining. This approach not only offers fine-grained control but also provides a mechanism for modeling more nuanced and context-dependent human feedback. Several experimental artifacts, such as training code, generated datasets and fine-tuned models are released at https://github.com/vicgalle/configurable-preference-tuning
PDF22June 16, 2025