Preferencias híbridas: Aprendiendo a enrutamiento de instancias para retroalimentación humana vs. de IA
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback
October 24, 2024
Autores: Lester James V. Miranda, Yizhong Wang, Yanai Elazar, Sachin Kumar, Valentina Pyatkin, Faeze Brahman, Noah A. Smith, Hannaneh Hajishirzi, Pradeep Dasigi
cs.AI
Resumen
Aprender a partir de la retroalimentación humana ha permitido alinear los modelos de lenguaje (LM) con las preferencias humanas. Sin embargo, la recolección directa de preferencias humanas puede resultar costosa, consumir mucho tiempo y presentar una alta variabilidad. Una alternativa atractiva es destilar preferencias de los LMs como fuente de anotaciones sintéticas, ya que son más consistentes, económicas y escalan mejor que las anotaciones humanas; no obstante, también son propensas a sesgos y errores. En este trabajo, presentamos un marco de enrutamiento que combina las entradas de humanos y LMs para lograr una mejor calidad de anotación, al tiempo que se reduce el costo total de la anotación humana. La clave de nuestro enfoque es identificar instancias de preferencia que se beneficiarán de las anotaciones humanas. Formulamos esto como un problema de optimización: dada un conjunto de datos de preferencias y una métrica de evaluación, entrenamos un modelo de predicción de rendimiento para predecir el rendimiento de un modelo de recompensa en una combinación arbitraria de anotaciones humanas y de LM, y empleamos una estrategia de enrutamiento que selecciona una combinación que maximiza el rendimiento predicho. Entrenamos el modelo de predicción de rendimiento en MultiPref, un nuevo conjunto de datos de preferencias con 10K instancias emparejadas con etiquetas humanas y de LM. Mostramos que la mezcla híbrida seleccionada de preferencias de LM y humanas directas utilizando nuestro marco de enrutamiento logra un mejor rendimiento del modelo de recompensa en comparación con el uso exclusivo de uno u otro. Simulamos la recolección selectiva de preferencias humanas en otros tres conjuntos de datos y demostramos que nuestro método se generaliza bien a los tres. Analizamos las características del modelo de enrutamiento para identificar las características de las instancias que pueden beneficiarse de la retroalimentación humana, por ejemplo, indicaciones con una preocupación de seguridad moderada o una complejidad de intención moderada. Publicamos el conjunto de datos, la plataforma de anotación y el código fuente utilizados en este estudio para fomentar una recolección de preferencias más eficiente y precisa en el futuro.
English
Learning from human feedback has enabled the alignment of language models
(LMs) with human preferences. However, directly collecting human preferences
can be expensive, time-consuming, and can have high variance. An appealing
alternative is to distill preferences from LMs as a source of synthetic
annotations as they are more consistent, cheaper, and scale better than human
annotation; however, they are also prone to biases and errors. In this work, we
introduce a routing framework that combines inputs from humans and LMs to
achieve better annotation quality, while reducing the total cost of human
annotation. The crux of our approach is to identify preference instances that
will benefit from human annotations. We formulate this as an optimization
problem: given a preference dataset and an evaluation metric, we train a
performance prediction model to predict a reward model's performance on an
arbitrary combination of human and LM annotations and employ a routing strategy
that selects a combination that maximizes predicted performance. We train the
performance prediction model on MultiPref, a new preference dataset with 10K
instances paired with human and LM labels. We show that the selected hybrid
mixture of LM and direct human preferences using our routing framework achieves
better reward model performance compared to using either one exclusively. We
simulate selective human preference collection on three other datasets and show
that our method generalizes well to all three. We analyze features from the
routing model to identify characteristics of instances that can benefit from
human feedback, e.g., prompts with a moderate safety concern or moderate intent
complexity. We release the dataset, annotation platform, and source code used
in this study to foster more efficient and accurate preference collection in
the future.Summary
AI-Generated Summary