Een Contextueel Kwaliteitsbeloningsmodel voor Betrouwbare en Efficiënte Best-of-N Steekproefname
A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling
October 5, 2025
Auteurs: Hyung Gyu Rho
cs.AI
Samenvatting
Moderne technieken voor voorkeursafstemming, zoals Best-of-N (BoN) sampling,
berusten op beloningsmodellen die zijn getraind met paarsgewijze vergelijkingsdata.
Hoewel deze aanpak effectief is in het leren van relatieve voorkeuren, slaagt het er niet in
een signaal van acceptabiliteit van reacties vast te leggen, waardoor systemen kwetsbaar zijn
voor het selecteren van de minst slechte van vele onacceptabele opties. Dit is vooral problematisch
voor moeilijke prompts, waarbij het risico van dergelijke valse acceptaties toeneemt met het aantal
steekproeven. In dit artikel pakken we dit kritieke betrouwbaarheidsgat aan door een nieuw
datacollectie- en modelleerframework te introduceren. Door voorkeursdata aan te vullen met een
buitenoptie, geïnspireerd door discrete keuzemodellen, trainen we een beloningsmodel dat niet alleen
kan onderscheiden wat beter is, maar ook wat goed genoeg is. We benutten deze mogelijkheid om een
adaptieve inferentiestrategie te creëren, best of mini-N in-loop, die het generatiebudget verdeelt
in sequentiële lussen met een gekalibreerde, vroegtijdige exit-voorwaarde. Onze experimenten tonen
aan dat wanneer het wordt afgestemd als een afstemmingsbeveiliging, het betrouwbaarheidsfouten met
70\% vermindert, en wanneer het wordt afgestemd als een inferentieversneller, het de gemiddelde
inferentiesnelheid met meer dan 22\% verbetert in de IMDB-sentimentomgeving. We bieden hiermee een
principieel en flexibel framework voor beoefenaars om expliciet de afweging tussen betrouwbaarheid
en computationele efficiëntie te beheren.
English
Modern preference alignment techniques, such as Best-of-N (BoN) sampling,
rely on reward models trained with pairwise comparison data. While effective at
learning relative preferences, this paradigm fails to capture a signal of
response acceptability, leaving systems vulnerable to selecting the least bad
of many unacceptable options. This is particularly problematic for hard
prompts, where the risk of such false acceptances increases with the number of
samples. In this paper, we address this critical reliability gap by introducing
a new data collection and modeling framework. By augmenting preference data
with an outside option, inspired by discrete choice models, we train a reward
model that can distinguish not just what is better, but what is
good enough. We leverage this capability to create an adaptive
inference strategy, best of mini-N in-loop, which partitions the generation
budget into sequential loops with a calibrated, early-exit condition. Our
experiments show that when tuned as an alignment guardrail, it reduces
reliability failures by 70\%, and when tuned as an inference accelerator, it
improves average inference speed by over 22\% in IMDB-sentiment setting. We
thus provide a principled and flexible framework for practitioners to
explicitly manage the trade-off between reliability and computational
efficiency.