Julgando com Confiança: Calibrando Avaliadores Automáticos para Distribuições de Preferência

Resumo

O alinhamento de grandes modelos de linguagem (LLMs, na sigla em inglês) com valores humanos depende cada vez mais do uso de outros LLMs como juízes automatizados, ou "autoraters". No entanto, sua confiabilidade é limitada por uma questão fundamental: eles são treinados em rótulos de preferência discretos, impondo uma única verdade fundamental em tarefas que muitas vezes são subjetivas, ambíguas ou cheias de nuances. Argumentamos que um autorater confiável deve aprender a modelar a distribuição completa de preferências definida por uma população-alvo. Neste artigo, propomos um framework geral para calibrar autoraters probabilísticos para qualquer distribuição de preferência dada. Formalizamos o problema e apresentamos dois métodos de aprendizado adaptados a diferentes condições de dados: 1) um ajuste fino supervisionado direto para rótulos densos e probabilísticos, e 2) uma abordagem de aprendizado por reforço para rótulos esparsos e binários. Nossos resultados empíricos mostram que ajustar autoraters com um objetivo de correspondência de distribuição leva a previsões de probabilidade verbalizadas que estão melhor alinhadas com a distribuição de preferência alvo, com calibração aprimorada e viés posicional significativamente menor, tudo isso mantendo o desempenho em tarefas objetivas.

English

The alignment of large language models (LLMs) with human values increasingly relies on using other LLMs as automated judges, or ``autoraters''. However, their reliability is limited by a foundational issue: they are trained on discrete preference labels, forcing a single ground truth onto tasks that are often subjective, ambiguous, or nuanced. We argue that a reliable autorater must learn to model the full distribution of preferences defined by a target population. In this paper, we propose a general framework for calibrating probabilistic autoraters to any given preference distribution. We formalize the problem and present two learning methods tailored to different data conditions: 1) a direct supervised fine-tuning for dense, probabilistic labels, and 2) a reinforcement learning approach for sparse, binary labels. Our empirical results show that finetuning autoraters with a distribution-matching objective leads to verbalized probability predictions that are better aligned with the target preference distribution, with improved calibration and significantly lower positional bias, all while preserving performance on objective tasks.

Julgando com Confiança: Calibrando Avaliadores Automáticos para Distribuições de Preferência

Judging with Confidence: Calibrating Autoraters to Preference Distributions

Resumo

Support