ChatPaper.aiChatPaper

Ajuste Configurável de Preferências com Dados Sintéticos Orientados por Rúbrica

Configurable Preference Tuning with Rubric-Guided Synthetic Data

June 13, 2025
Autores: Víctor Gallego
cs.AI

Resumo

Modelos de feedback humano para alinhamento de IA, como aqueles que fundamentam a Otimização Direta de Preferências (Direct Preference Optimization - DPO), frequentemente incorporam um conjunto singular e estático de preferências, limitando a adaptabilidade. Este artigo desafia a suposição de preferências monolíticas ao introduzir o Ajuste Configurável de Preferências (Configurable Preference Tuning - CPT), uma nova estrutura para dotar modelos de linguagem com a capacidade de ajustar dinamicamente seu comportamento com base em diretivas explícitas e interpretáveis por humanos. O CPT aproveita dados de preferência gerados sinteticamente, condicionados a prompts de sistema derivados de rubricas estruturadas e detalhadas que definem atributos desejados, como estilo de escrita. Ao ajustar finamente com essas preferências guiadas por rubricas, o LLM aprende a modular suas saídas no momento da inferência em resposta ao prompt do sistema, sem necessidade de retreinamento. Essa abordagem não apenas oferece controle refinado, mas também fornece um mecanismo para modelar feedback humano mais sutil e dependente do contexto. Vários artefatos experimentais, como código de treinamento, conjuntos de dados gerados e modelos ajustados, são disponibilizados em https://github.com/vicgalle/configurable-preference-tuning.
English
Models of human feedback for AI alignment, such as those underpinning Direct Preference Optimization (DPO), often bake in a singular, static set of preferences, limiting adaptability. This paper challenges the assumption of monolithic preferences by introducing Configurable Preference Tuning (CPT), a novel framework for endowing language models with the ability to dynamically adjust their behavior based on explicit, human-interpretable directives. CPT leverages synthetically generated preference data, conditioned on system prompts derived from structured, fine-grained rubrics that define desired attributes like writing style. By fine-tuning with these rubric-guided preferences, the LLM learns to modulate its outputs at inference time in response to the system prompt, without retraining. This approach not only offers fine-grained control but also provides a mechanism for modeling more nuanced and context-dependent human feedback. Several experimental artifacts, such as training code, generated datasets and fine-tuned models are released at https://github.com/vicgalle/configurable-preference-tuning
PDF22June 16, 2025