ChatPaper.aiChatPaper

Пример, Анализ и Масштабирование: Эффективный поиск во время вывода путем масштабирования проверки

Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification

February 3, 2025
Авторы: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi
cs.AI

Аннотация

Поиск на основе выборки, простая парадигма для использования вычислительных ресурсов во время тестирования, включает в себя генерацию нескольких кандидатов на ответ и выбор лучшего из них - обычно путем проверки каждого ответа на правильность. В данной статье мы изучаем тенденции масштабирования, управляющие поиском на основе выборки. Одним из наших выводов является то, что простое увеличение масштаба минималистической реализации, использующей только случайную выборку и прямую самопроверку, приводит к устойчивому улучшению производительности, которое, например, повышает способности к рассуждению модели Gemini v1.5 Pro выше, чем у o1-Preview на популярных бенчмарках. Мы частично связываем масштабируемость поиска на основе выборки с явлением неявного масштабирования, где выбор более крупного пула ответов в свою очередь повышает точность верификации. Мы также выделяем два полезных принципа для улучшения возможностей самопроверки с использованием вычислительных ресурсов во время тестирования: (1) сравнение ответов предоставляет полезные сигналы о местоположении ошибок и галлюцинаций, и (2) различные стили выходных данных модели полезны для различных контекстов - цепочки мыслей полезны для рассуждений, но сложны для проверки. Мы также обнаруживаем, что, хотя точную верификацию можно получить, фронтовые модели демонстрируют заметно слабые возможности по автоматической верификации и вводят бенчмарк для измерения прогресса в устранении этих недостатков.
English
Sampling-based search, a simple paradigm for utilizing test-time compute, involves generating multiple candidate responses and selecting the best one -- typically by verifying each response for correctness. In this paper, we study the scaling trends governing sampling-based search. Among our findings is that simply scaling up a minimalist implementation that uses only random sampling and direct self-verification results in sustained performance improvements that, for example, elevate the Gemini v1.5 Pro model's reasoning capabilities past that of o1-Preview on popular benchmarks. We partially attribute the scalability of sampling-based search to a phenomenon of implicit scaling, where sampling a larger pool of responses in turn improves verification accuracy. We further identify two useful principles for improving self-verification capabilities with test-time compute: (1) comparing across responses provides helpful signals about the locations of errors and hallucinations, and (2) different model output styles are useful for different contexts -- chains of thought are useful for reasoning but harder to verify. We also find that, though accurate verification can be elicited, frontier models demonstrate remarkably weak out-of-box verification capabilities and introduce a benchmark to measure progress on these deficiencies.

Summary

AI-Generated Summary

PDF82February 5, 2025