ChatPaper.aiChatPaper

Preferências Híbridas: Aprendizado para Roteamento de Instâncias com Feedback Humano vs. de IA

Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

October 24, 2024
Autores: Lester James V. Miranda, Yizhong Wang, Yanai Elazar, Sachin Kumar, Valentina Pyatkin, Faeze Brahman, Noah A. Smith, Hannaneh Hajishirzi, Pradeep Dasigi
cs.AI

Resumo

Aprender com o feedback humano possibilitou o alinhamento de modelos de linguagem (LMs) com as preferências humanas. No entanto, coletar diretamente as preferências humanas pode ser caro, demorado e apresentar alta variância. Uma alternativa atraente é extrair preferências dos LMs como fonte de anotações sintéticas, pois são mais consistentes, mais baratas e escaláveis do que as anotações humanas; no entanto, também estão sujeitas a viéses e erros. Neste trabalho, introduzimos um framework de roteamento que combina entradas de humanos e LMs para alcançar uma melhor qualidade de anotação, reduzindo o custo total da anotação humana. O cerne de nossa abordagem é identificar instâncias de preferência que se beneficiarão de anotações humanas. Formulamos isso como um problema de otimização: dado um conjunto de dados de preferência e uma métrica de avaliação, treinamos um modelo de previsão de desempenho para prever o desempenho de um modelo de recompensa em uma combinação arbitrária de anotações humanas e de LM e empregamos uma estratégia de roteamento que seleciona uma combinação que maximize o desempenho previsto. Treinamos o modelo de previsão de desempenho no MultiPref, um novo conjunto de dados de preferência com 10 mil instâncias associadas a rótulos humanos e de LM. Mostramos que a mistura híbrida selecionada de preferências de LM e humanas diretas usando nosso framework de roteamento alcança um melhor desempenho do modelo de recompensa em comparação com o uso exclusivo de um deles. Simulamos a coleta seletiva de preferências humanas em outros três conjuntos de dados e mostramos que nosso método generaliza bem para os três. Analisamos as características do modelo de roteamento para identificar características de instâncias que podem se beneficiar do feedback humano, por exemplo, prompts com uma preocupação moderada de segurança ou complexidade moderada de intenção. Disponibilizamos o conjunto de dados, a plataforma de anotação e o código-fonte utilizados neste estudo para promover uma coleta de preferências mais eficiente e precisa no futuro.
English
Learning from human feedback has enabled the alignment of language models (LMs) with human preferences. However, directly collecting human preferences can be expensive, time-consuming, and can have high variance. An appealing alternative is to distill preferences from LMs as a source of synthetic annotations as they are more consistent, cheaper, and scale better than human annotation; however, they are also prone to biases and errors. In this work, we introduce a routing framework that combines inputs from humans and LMs to achieve better annotation quality, while reducing the total cost of human annotation. The crux of our approach is to identify preference instances that will benefit from human annotations. We formulate this as an optimization problem: given a preference dataset and an evaluation metric, we train a performance prediction model to predict a reward model's performance on an arbitrary combination of human and LM annotations and employ a routing strategy that selects a combination that maximizes predicted performance. We train the performance prediction model on MultiPref, a new preference dataset with 10K instances paired with human and LM labels. We show that the selected hybrid mixture of LM and direct human preferences using our routing framework achieves better reward model performance compared to using either one exclusively. We simulate selective human preference collection on three other datasets and show that our method generalizes well to all three. We analyze features from the routing model to identify characteristics of instances that can benefit from human feedback, e.g., prompts with a moderate safety concern or moderate intent complexity. We release the dataset, annotation platform, and source code used in this study to foster more efficient and accurate preference collection in the future.

Summary

AI-Generated Summary

PDF112November 16, 2024