ChatPaper.aiChatPaper

Ein Kontextuelles Qualitäts-Belohnungsmodell für zuverlässiges und effizientes Best-of-N-Sampling

A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling

October 5, 2025
papers.authors: Hyung Gyu Rho
cs.AI

papers.abstract

Moderne Präferenzabgleichstechniken wie Best-of-N (BoN) Sampling basieren auf Belohnungsmodellen, die mit paarweisen Vergleichsdaten trainiert werden. Obwohl diese Methode effektiv relative Präferenzen erlernt, erfasst sie kein Signal für die Akzeptanz von Antworten, wodurch Systeme anfällig dafür sind, das geringste Übel unter vielen inakzeptablen Optionen auszuwählen. Dies ist besonders problematisch bei schwierigen Prompts, bei denen das Risiko solcher falschen Akzeptanzen mit der Anzahl der Proben steigt. In diesem Artikel adressieren wir diese kritische Zuverlässigkeitslücke durch die Einführung eines neuen Datenerfassungs- und Modellierungsframeworks. Indem wir Präferenzdaten mit einer Außenoption ergänzen, inspiriert von diskreten Wahlmodellen, trainieren wir ein Belohnungsmodell, das nicht nur unterscheiden kann, was besser ist, sondern auch, was gut genug ist. Wir nutzen diese Fähigkeit, um eine adaptive Inferenzstrategie, Best of Mini-N in-loop, zu entwickeln, die das Generierungsbudget in sequenzielle Schleifen mit einer kalibrierten, frühzeitigen Abbruchbedingung aufteilt. Unsere Experimente zeigen, dass diese Methode, wenn sie als Schutzmechanismus für den Präferenzabgleich eingesetzt wird, Zuverlässigkeitsfehler um 70 % reduziert, und wenn sie als Inferenzbeschleuniger verwendet wird, die durchschnittliche Inferenzgeschwindigkeit im IMDB-Sentiment-Setting um über 22 % verbessert. Somit bieten wir ein prinzipielles und flexibles Framework für Praktiker, um den Kompromiss zwischen Zuverlässigkeit und Recheneffizienz explizit zu steuern.
English
Modern preference alignment techniques, such as Best-of-N (BoN) sampling, rely on reward models trained with pairwise comparison data. While effective at learning relative preferences, this paradigm fails to capture a signal of response acceptability, leaving systems vulnerable to selecting the least bad of many unacceptable options. This is particularly problematic for hard prompts, where the risk of such false acceptances increases with the number of samples. In this paper, we address this critical reliability gap by introducing a new data collection and modeling framework. By augmenting preference data with an outside option, inspired by discrete choice models, we train a reward model that can distinguish not just what is better, but what is good enough. We leverage this capability to create an adaptive inference strategy, best of mini-N in-loop, which partitions the generation budget into sequential loops with a calibrated, early-exit condition. Our experiments show that when tuned as an alignment guardrail, it reduces reliability failures by 70\%, and when tuned as an inference accelerator, it improves average inference speed by over 22\% in IMDB-sentiment setting. We thus provide a principled and flexible framework for practitioners to explicitly manage the trade-off between reliability and computational efficiency.
PDF12October 8, 2025