ChatPaper.aiChatPaper

Un Modello di Ricompensa per la Qualità Contestuale per un Campionamento Best-of-N Affidabile ed Efficiente

A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling

October 5, 2025
Autori: Hyung Gyu Rho
cs.AI

Abstract

Le moderne tecniche di allineamento delle preferenze, come il campionamento Best-of-N (BoN), si basano su modelli di ricompensa addestrati con dati di confronto a coppie. Sebbene efficaci nell'apprendere preferenze relative, questo paradigma non riesce a catturare un segnale di accettabilità delle risposte, rendendo i sistemi vulnerabili alla selezione dell'opzione meno negativa tra molte inaccettabili. Ciò è particolarmente problematico per prompt difficili, dove il rischio di tali falsi positivi aumenta con il numero di campioni. In questo articolo, affrontiamo questa lacuna critica di affidabilità introducendo un nuovo framework di raccolta dati e modellazione. Arricchendo i dati di preferenza con un'opzione esterna, ispirati dai modelli di scelta discreta, addestriamo un modello di ricompensa che può distinguere non solo ciò che è migliore, ma anche ciò che è sufficientemente buono. Sfruttiamo questa capacità per creare una strategia di inferenza adattiva, best of mini-N in-loop, che suddivide il budget di generazione in loop sequenziali con una condizione di uscita anticipata calibrata. I nostri esperimenti dimostrano che, quando configurato come barriera di allineamento, riduce i fallimenti di affidabilità del 70%, e quando configurato come acceleratore di inferenza, migliora la velocità media di inferenza di oltre il 22% nel contesto di sentiment IMDB. Forniamo quindi un framework principiato e flessibile per i professionisti per gestire esplicitamente il compromesso tra affidabilità ed efficienza computazionale.
English
Modern preference alignment techniques, such as Best-of-N (BoN) sampling, rely on reward models trained with pairwise comparison data. While effective at learning relative preferences, this paradigm fails to capture a signal of response acceptability, leaving systems vulnerable to selecting the least bad of many unacceptable options. This is particularly problematic for hard prompts, where the risk of such false acceptances increases with the number of samples. In this paper, we address this critical reliability gap by introducing a new data collection and modeling framework. By augmenting preference data with an outside option, inspired by discrete choice models, we train a reward model that can distinguish not just what is better, but what is good enough. We leverage this capability to create an adaptive inference strategy, best of mini-N in-loop, which partitions the generation budget into sequential loops with a calibrated, early-exit condition. Our experiments show that when tuned as an alignment guardrail, it reduces reliability failures by 70\%, and when tuned as an inference accelerator, it improves average inference speed by over 22\% in IMDB-sentiment setting. We thus provide a principled and flexible framework for practitioners to explicitly manage the trade-off between reliability and computational efficiency.
PDF12October 8, 2025