Ottimizzazione Configurabile delle Preferenze con Dati Sintetici Guidati da Rubrica
Configurable Preference Tuning with Rubric-Guided Synthetic Data
June 13, 2025
Autori: Víctor Gallego
cs.AI
Abstract
I modelli di feedback umano per l'allineamento dell'IA, come quelli alla base dell'Optimizzazione Diretta delle Preferenze (DPO), spesso incorporano un insieme singolo e statico di preferenze, limitando l'adattabilità. Questo articolo mette in discussione l'assunzione di preferenze monolitiche introducendo il Configurable Preference Tuning (CPT), un nuovo framework che consente ai modelli linguistici di adattare dinamicamente il loro comportamento in base a direttive esplicite e interpretabili dall'uomo. CPT sfrutta dati di preferenza generati sinteticamente, condizionati da prompt di sistema derivati da rubriche strutturate e granulari che definiscono attributi desiderati come lo stile di scrittura. Ottimizzando il modello con queste preferenze guidate da rubriche, il LLM impara a modulare i suoi output durante l'inferenza in risposta al prompt di sistema, senza bisogno di riaddestramento. Questo approccio non solo offre un controllo granulare, ma fornisce anche un meccanismo per modellare feedback umano più sfumato e dipendente dal contesto. Diversi artefatti sperimentali, come il codice di addestramento, i dataset generati e i modelli ottimizzati, sono rilasciati su https://github.com/vicgalle/configurable-preference-tuning.
English
Models of human feedback for AI alignment, such as those underpinning Direct
Preference Optimization (DPO), often bake in a singular, static set of
preferences, limiting adaptability. This paper challenges the assumption of
monolithic preferences by introducing Configurable Preference Tuning (CPT), a
novel framework for endowing language models with the ability to dynamically
adjust their behavior based on explicit, human-interpretable directives. CPT
leverages synthetically generated preference data, conditioned on system
prompts derived from structured, fine-grained rubrics that define desired
attributes like writing style. By fine-tuning with these rubric-guided
preferences, the LLM learns to modulate its outputs at inference time in
response to the system prompt, without retraining. This approach not only
offers fine-grained control but also provides a mechanism for modeling more
nuanced and context-dependent human feedback. Several experimental artifacts,
such as training code, generated datasets and fine-tuned models are released at
https://github.com/vicgalle/configurable-preference-tuning