Julgando com Confiança: Calibrando Avaliadores Automáticos para Distribuições de Preferência
Judging with Confidence: Calibrating Autoraters to Preference Distributions
September 30, 2025
Autores: Zhuohang Li, Xiaowei Li, Chengyu Huang, Guowang Li, Katayoon Goshvadi, Bo Dai, Dale Schuurmans, Paul Zhou, Hamid Palangi, Yiwen Song, Palash Goyal, Murat Kantarcioglu, Bradley A. Malin, Yuan Xue
cs.AI
Resumo
O alinhamento de grandes modelos de linguagem (LLMs, na sigla em inglês) com valores humanos depende cada vez mais do uso de outros LLMs como juízes automatizados, ou "autoraters". No entanto, sua confiabilidade é limitada por uma questão fundamental: eles são treinados em rótulos de preferência discretos, impondo uma única verdade fundamental em tarefas que muitas vezes são subjetivas, ambíguas ou cheias de nuances. Argumentamos que um autorater confiável deve aprender a modelar a distribuição completa de preferências definida por uma população-alvo. Neste artigo, propomos um framework geral para calibrar autoraters probabilísticos para qualquer distribuição de preferência dada. Formalizamos o problema e apresentamos dois métodos de aprendizado adaptados a diferentes condições de dados: 1) um ajuste fino supervisionado direto para rótulos densos e probabilísticos, e 2) uma abordagem de aprendizado por reforço para rótulos esparsos e binários. Nossos resultados empíricos mostram que ajustar autoraters com um objetivo de correspondência de distribuição leva a previsões de probabilidade verbalizadas que estão melhor alinhadas com a distribuição de preferência alvo, com calibração aprimorada e viés posicional significativamente menor, tudo isso mantendo o desempenho em tarefas objetivas.
English
The alignment of large language models (LLMs) with human values increasingly
relies on using other LLMs as automated judges, or ``autoraters''. However,
their reliability is limited by a foundational issue: they are trained on
discrete preference labels, forcing a single ground truth onto tasks that are
often subjective, ambiguous, or nuanced. We argue that a reliable autorater
must learn to model the full distribution of preferences defined by a target
population. In this paper, we propose a general framework for calibrating
probabilistic autoraters to any given preference distribution. We formalize the
problem and present two learning methods tailored to different data conditions:
1) a direct supervised fine-tuning for dense, probabilistic labels, and 2) a
reinforcement learning approach for sparse, binary labels. Our empirical
results show that finetuning autoraters with a distribution-matching objective
leads to verbalized probability predictions that are better aligned with the
target preference distribution, with improved calibration and significantly
lower positional bias, all while preserving performance on objective tasks.