Campione, Analisi e Scalabilità: Ricerca efficace durante l'Inferenza mediante la Scalabilità della Verifica
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification
February 3, 2025
Autori: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi
cs.AI
Abstract
La ricerca basata su campionamento, un paradigma semplice per utilizzare il calcolo al momento del test, coinvolge la generazione di diverse risposte candidate e la selezione della migliore - tipicamente verificando ciascuna risposta per correttezza. In questo articolo, studiamo le tendenze di scalabilità che governano la ricerca basata su campionamento. Tra le nostre scoperte c'è il fatto che semplicemente aumentando proporzionalmente un'implementazione minimalista che utilizza solo campionamento casuale e auto-verifica diretta porta a miglioramenti delle prestazioni sostenuti che, ad esempio, elevano le capacità di ragionamento del modello Gemini v1.5 Pro oltre quelle di o1-Preview su benchmark popolari. Attribuiamo in parte la scalabilità della ricerca basata su campionamento a un fenomeno di scalabilità implicita, dove campionare un pool più ampio di risposte migliora a sua volta l'accuratezza della verifica. Identifichiamo inoltre due principi utili per migliorare le capacità di auto-verifica con calcolo al momento del test: (1) confrontare le risposte fornisce segnali utili sulla posizione degli errori e delle allucinazioni, e (2) stili di output del modello diversi sono utili per contesti diversi - le catene di pensiero sono utili per il ragionamento ma più difficili da verificare. Troviamo anche che, sebbene la verifica accurata possa essere ottenuta, i modelli di frontiera dimostrano capacità di verifica fuori dalla scatola notevolmente deboli e introducono un benchmark per misurare i progressi su queste carenze.
English
Sampling-based search, a simple paradigm for utilizing test-time compute,
involves generating multiple candidate responses and selecting the best one --
typically by verifying each response for correctness. In this paper, we study
the scaling trends governing sampling-based search. Among our findings is that
simply scaling up a minimalist implementation that uses only random sampling
and direct self-verification results in sustained performance improvements
that, for example, elevate the Gemini v1.5 Pro model's reasoning capabilities
past that of o1-Preview on popular benchmarks. We partially attribute the
scalability of sampling-based search to a phenomenon of implicit scaling, where
sampling a larger pool of responses in turn improves verification accuracy. We
further identify two useful principles for improving self-verification
capabilities with test-time compute: (1) comparing across responses provides
helpful signals about the locations of errors and hallucinations, and (2)
different model output styles are useful for different contexts -- chains of
thought are useful for reasoning but harder to verify. We also find that,
though accurate verification can be elicited, frontier models demonstrate
remarkably weak out-of-box verification capabilities and introduce a benchmark
to measure progress on these deficiencies.Summary
AI-Generated Summary