Um Modelo de Recompensa de Qualidade Contextual para Amostragem Confiável e Eficiente do Melhor de N
A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling
October 5, 2025
Autores: Hyung Gyu Rho
cs.AI
Resumo
As técnicas modernas de alinhamento de preferências, como a amostragem Best-of-N (BoN), dependem de modelos de recompensa treinados com dados de comparação pareada. Embora eficazes para aprender preferências relativas, esse paradigma falha em capturar um sinal de aceitabilidade da resposta, deixando os sistemas vulneráveis a selecionar a menos ruim entre muitas opções inaceitáveis. Isso é particularmente problemático para prompts difíceis, onde o risco de tais falsas aceitações aumenta com o número de amostras. Neste artigo, abordamos essa lacuna crítica de confiabilidade ao introduzir uma nova estrutura de coleta de dados e modelagem. Ao complementar os dados de preferência com uma opção externa, inspirada em modelos de escolha discreta, treinamos um modelo de recompensa que pode distinguir não apenas o que é melhor, mas o que é bom o suficiente. Aproveitamos essa capacidade para criar uma estratégia de inferência adaptativa, best of mini-N in-loop, que divide o orçamento de geração em loops sequenciais com uma condição de saída antecipada calibrada. Nossos experimentos mostram que, quando ajustada como uma barreira de proteção para alinhamento, ela reduz falhas de confiabilidade em 70%, e quando ajustada como um acelerador de inferência, melhora a velocidade média de inferência em mais de 22% no cenário de sentimento IMDB. Assim, fornecemos uma estrutura fundamentada e flexível para que os profissionais gerenciem explicitamente a troca entre confiabilidade e eficiência computacional.
English
Modern preference alignment techniques, such as Best-of-N (BoN) sampling,
rely on reward models trained with pairwise comparison data. While effective at
learning relative preferences, this paradigm fails to capture a signal of
response acceptability, leaving systems vulnerable to selecting the least bad
of many unacceptable options. This is particularly problematic for hard
prompts, where the risk of such false acceptances increases with the number of
samples. In this paper, we address this critical reliability gap by introducing
a new data collection and modeling framework. By augmenting preference data
with an outside option, inspired by discrete choice models, we train a reward
model that can distinguish not just what is better, but what is
good enough. We leverage this capability to create an adaptive
inference strategy, best of mini-N in-loop, which partitions the generation
budget into sequential loops with a calibrated, early-exit condition. Our
experiments show that when tuned as an alignment guardrail, it reduces
reliability failures by 70\%, and when tuned as an inference accelerator, it
improves average inference speed by over 22\% in IMDB-sentiment setting. We
thus provide a principled and flexible framework for practitioners to
explicitly manage the trade-off between reliability and computational
efficiency.