Amostra, Analise e Dimensione: Busca Efetiva em Tempo de Inferência por Dimensionamento da Verificação
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification
February 3, 2025
Autores: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi
cs.AI
Resumo
A busca baseada em amostragem, um paradigma simples para utilizar o tempo de teste de computação, envolve gerar múltiplas respostas candidatas e selecionar a melhor delas - tipicamente verificando cada resposta quanto à correção. Neste artigo, estudamos as tendências de escalabilidade que regem a busca baseada em amostragem. Entre nossas descobertas está o fato de que simplesmente aumentar a escala de uma implementação minimalista que utiliza apenas amostragem aleatória e autoverificação direta resulta em melhorias de desempenho sustentadas que, por exemplo, elevam as capacidades de raciocínio do modelo Gemini v1.5 Pro acima do o1-Preview em benchmarks populares. Atribuímos parcialmente a escalabilidade da busca baseada em amostragem a um fenômeno de escalonamento implícito, onde amostrar um pool maior de respostas por sua vez melhora a precisão da verificação. Identificamos ainda dois princípios úteis para melhorar as capacidades de autoverificação com tempo de teste: (1) comparar entre respostas fornece sinais úteis sobre os locais de erros e alucinações, e (2) estilos de saída de modelo diferentes são úteis para contextos diferentes - cadeias de pensamento são úteis para raciocínio, mas mais difíceis de verificar. Também descobrimos que, embora a verificação precisa possa ser obtida, os modelos de fronteira demonstram capacidades de verificação fora da caixa notavelmente fracas e introduzem um benchmark para medir o progresso nessas deficiências.
English
Sampling-based search, a simple paradigm for utilizing test-time compute,
involves generating multiple candidate responses and selecting the best one --
typically by verifying each response for correctness. In this paper, we study
the scaling trends governing sampling-based search. Among our findings is that
simply scaling up a minimalist implementation that uses only random sampling
and direct self-verification results in sustained performance improvements
that, for example, elevate the Gemini v1.5 Pro model's reasoning capabilities
past that of o1-Preview on popular benchmarks. We partially attribute the
scalability of sampling-based search to a phenomenon of implicit scaling, where
sampling a larger pool of responses in turn improves verification accuracy. We
further identify two useful principles for improving self-verification
capabilities with test-time compute: (1) comparing across responses provides
helpful signals about the locations of errors and hallucinations, and (2)
different model output styles are useful for different contexts -- chains of
thought are useful for reasoning but harder to verify. We also find that,
though accurate verification can be elicited, frontier models demonstrate
remarkably weak out-of-box verification capabilities and introduce a benchmark
to measure progress on these deficiencies.Summary
AI-Generated Summary