Monster, Analyseer en Schaal: Effectieve Zoekactie tijdens Inferentie door Schaalvergroting van Verificatie
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification
February 3, 2025
Auteurs: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi
cs.AI
Samenvatting
Sampling-based search, een eenvoudig paradigma voor het benutten van rekenkracht op testtijd, omvat het genereren van meerdere kandidaatreacties en het selecteren van de beste - meestal door elke reactie te verifiëren op juistheid. In dit artikel bestuderen we de schalingstrends die sampling-based search beheersen. Een van onze bevindingen is dat door eenvoudigweg een minimalistische implementatie op te schalen die alleen willekeurige steekproeven en directe zelfverificatie gebruikt, resulteert in voortdurende prestatieverbeteringen die bijvoorbeeld de redeneervermogens van het Gemini v1.5 Pro-model verhogen voorbij die van o1-Preview op populaire benchmarks. We schrijven de schaalbaarheid van sampling-based search gedeeltelijk toe aan een fenomeen van impliciete schaling, waarbij het nemen van een grotere pool van reacties op zijn beurt de verificatienauwkeurigheid verbetert. We identificeren ook twee nuttige principes voor het verbeteren van zelfverificatiemogelijkheden met rekenkracht op testtijd: (1) het vergelijken van reacties levert nuttige signalen op over de locaties van fouten en hallucinaties, en (2) verschillende modeloutputstijlen zijn nuttig voor verschillende contexten - gedachtegangen zijn nuttig voor redeneren maar moeilijker te verifiëren. We constateren ook dat, hoewel nauwkeurige verificatie kan worden verkregen, frontier-modellen opmerkelijk zwakke out-of-box verificatiemogelijkheden vertonen en introduceren een benchmark om vooruitgang te meten op deze tekortkomingen.
English
Sampling-based search, a simple paradigm for utilizing test-time compute,
involves generating multiple candidate responses and selecting the best one --
typically by verifying each response for correctness. In this paper, we study
the scaling trends governing sampling-based search. Among our findings is that
simply scaling up a minimalist implementation that uses only random sampling
and direct self-verification results in sustained performance improvements
that, for example, elevate the Gemini v1.5 Pro model's reasoning capabilities
past that of o1-Preview on popular benchmarks. We partially attribute the
scalability of sampling-based search to a phenomenon of implicit scaling, where
sampling a larger pool of responses in turn improves verification accuracy. We
further identify two useful principles for improving self-verification
capabilities with test-time compute: (1) comparing across responses provides
helpful signals about the locations of errors and hallucinations, and (2)
different model output styles are useful for different contexts -- chains of
thought are useful for reasoning but harder to verify. We also find that,
though accurate verification can be elicited, frontier models demonstrate
remarkably weak out-of-box verification capabilities and introduce a benchmark
to measure progress on these deficiencies.Summary
AI-Generated Summary