Stichprobe, Überprüfung und Skalierung: Effektive Inferenzzeit-Suche durch Skalierung der Verifizierung

papers.abstract

Die auf Stichproben basierende Suche, ein einfaches Paradigma zur Nutzung von Rechenleistung zur Testzeit, beinhaltet die Generierung mehrerer Kandidatenantworten und die Auswahl der besten Antwort - typischerweise durch Überprüfung jeder Antwort auf Korrektheit. In diesem Papier untersuchen wir die Skalierungstrends, die die auf Stichproben basierende Suche steuern. Zu unseren Erkenntnissen gehört, dass allein durch das Skalieren einer minimalistischen Implementierung, die nur zufällige Stichproben und direkte Selbstüberprüfung verwendet, kontinuierliche Leistungsverbesserungen erzielt werden, die beispielsweise die Argumentationsfähigkeiten des Gemini v1.5 Pro-Modells über die des o1-Preview auf beliebten Benchmarks hinaus verbessern. Wir führen die Skalierbarkeit der auf Stichproben basierenden Suche teilweise auf ein Phänomen des impliziten Skalierens zurück, bei dem das Sammeln eines größeren Pools von Antworten wiederum die Überprüfungsgenauigkeit verbessert. Darüber hinaus identifizieren wir zwei nützliche Prinzipien zur Verbesserung der Selbstüberprüfungsfähigkeiten mit Rechenleistung zur Testzeit: (1) Der Vergleich von Antworten liefert hilfreiche Signale über die Fehler- und Halluzinationsorte, und (2) verschiedene Ausgabestile des Modells sind für verschiedene Kontexte nützlich - Gedankengänge sind nützlich für das Argumentieren, aber schwerer zu überprüfen. Wir stellen auch fest, dass, obwohl eine genaue Überprüfung möglich ist, Frontmodelle erstaunlich schwache Out-of-the-Box-Überprüfungsfähigkeiten zeigen und führen einen Benchmark ein, um Fortschritte bei diesen Defiziten zu messen.

English

Sampling-based search, a simple paradigm for utilizing test-time compute, involves generating multiple candidate responses and selecting the best one -- typically by verifying each response for correctness. In this paper, we study the scaling trends governing sampling-based search. Among our findings is that simply scaling up a minimalist implementation that uses only random sampling and direct self-verification results in sustained performance improvements that, for example, elevate the Gemini v1.5 Pro model's reasoning capabilities past that of o1-Preview on popular benchmarks. We partially attribute the scalability of sampling-based search to a phenomenon of implicit scaling, where sampling a larger pool of responses in turn improves verification accuracy. We further identify two useful principles for improving self-verification capabilities with test-time compute: (1) comparing across responses provides helpful signals about the locations of errors and hallucinations, and (2) different model output styles are useful for different contexts -- chains of thought are useful for reasoning but harder to verify. We also find that, though accurate verification can be elicited, frontier models demonstrate remarkably weak out-of-box verification capabilities and introduce a benchmark to measure progress on these deficiencies.

Stichprobe, Überprüfung und Skalierung: Effektive Inferenzzeit-Suche durch Skalierung der Verifizierung

Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification

papers.abstract

Support