Stichprobe, Überprüfung und Skalierung: Effektive Inferenzzeit-Suche durch Skalierung der Verifizierung
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification
February 3, 2025
Autoren: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi
cs.AI
Zusammenfassung
Die auf Stichproben basierende Suche, ein einfaches Paradigma zur Nutzung von Rechenleistung zur Testzeit, beinhaltet die Generierung mehrerer Kandidatenantworten und die Auswahl der besten Antwort - typischerweise durch Überprüfung jeder Antwort auf Korrektheit. In diesem Papier untersuchen wir die Skalierungstrends, die die auf Stichproben basierende Suche steuern. Zu unseren Erkenntnissen gehört, dass allein durch das Skalieren einer minimalistischen Implementierung, die nur zufällige Stichproben und direkte Selbstüberprüfung verwendet, kontinuierliche Leistungsverbesserungen erzielt werden, die beispielsweise die Argumentationsfähigkeiten des Gemini v1.5 Pro-Modells über die des o1-Preview auf beliebten Benchmarks hinaus verbessern. Wir führen die Skalierbarkeit der auf Stichproben basierenden Suche teilweise auf ein Phänomen des impliziten Skalierens zurück, bei dem das Sammeln eines größeren Pools von Antworten wiederum die Überprüfungsgenauigkeit verbessert. Darüber hinaus identifizieren wir zwei nützliche Prinzipien zur Verbesserung der Selbstüberprüfungsfähigkeiten mit Rechenleistung zur Testzeit: (1) Der Vergleich von Antworten liefert hilfreiche Signale über die Fehler- und Halluzinationsorte, und (2) verschiedene Ausgabestile des Modells sind für verschiedene Kontexte nützlich - Gedankengänge sind nützlich für das Argumentieren, aber schwerer zu überprüfen. Wir stellen auch fest, dass, obwohl eine genaue Überprüfung möglich ist, Frontmodelle erstaunlich schwache Out-of-the-Box-Überprüfungsfähigkeiten zeigen und führen einen Benchmark ein, um Fortschritte bei diesen Defiziten zu messen.
English
Sampling-based search, a simple paradigm for utilizing test-time compute,
involves generating multiple candidate responses and selecting the best one --
typically by verifying each response for correctness. In this paper, we study
the scaling trends governing sampling-based search. Among our findings is that
simply scaling up a minimalist implementation that uses only random sampling
and direct self-verification results in sustained performance improvements
that, for example, elevate the Gemini v1.5 Pro model's reasoning capabilities
past that of o1-Preview on popular benchmarks. We partially attribute the
scalability of sampling-based search to a phenomenon of implicit scaling, where
sampling a larger pool of responses in turn improves verification accuracy. We
further identify two useful principles for improving self-verification
capabilities with test-time compute: (1) comparing across responses provides
helpful signals about the locations of errors and hallucinations, and (2)
different model output styles are useful for different contexts -- chains of
thought are useful for reasoning but harder to verify. We also find that,
though accurate verification can be elicited, frontier models demonstrate
remarkably weak out-of-box verification capabilities and introduce a benchmark
to measure progress on these deficiencies.Summary
AI-Generated Summary