ChatPaper.aiChatPaper

Amostra, Analise e Dimensione: Busca Efetiva em Tempo de Inferência por Dimensionamento da Verificação

Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification

February 3, 2025
Autores: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi
cs.AI

Resumo

A busca baseada em amostragem, um paradigma simples para utilizar o tempo de teste de computação, envolve gerar múltiplas respostas candidatas e selecionar a melhor delas - tipicamente verificando cada resposta quanto à correção. Neste artigo, estudamos as tendências de escalabilidade que regem a busca baseada em amostragem. Entre nossas descobertas está o fato de que simplesmente aumentar a escala de uma implementação minimalista que utiliza apenas amostragem aleatória e autoverificação direta resulta em melhorias de desempenho sustentadas que, por exemplo, elevam as capacidades de raciocínio do modelo Gemini v1.5 Pro acima do o1-Preview em benchmarks populares. Atribuímos parcialmente a escalabilidade da busca baseada em amostragem a um fenômeno de escalonamento implícito, onde amostrar um pool maior de respostas por sua vez melhora a precisão da verificação. Identificamos ainda dois princípios úteis para melhorar as capacidades de autoverificação com tempo de teste: (1) comparar entre respostas fornece sinais úteis sobre os locais de erros e alucinações, e (2) estilos de saída de modelo diferentes são úteis para contextos diferentes - cadeias de pensamento são úteis para raciocínio, mas mais difíceis de verificar. Também descobrimos que, embora a verificação precisa possa ser obtida, os modelos de fronteira demonstram capacidades de verificação fora da caixa notavelmente fracas e introduzem um benchmark para medir o progresso nessas deficiências.
English
Sampling-based search, a simple paradigm for utilizing test-time compute, involves generating multiple candidate responses and selecting the best one -- typically by verifying each response for correctness. In this paper, we study the scaling trends governing sampling-based search. Among our findings is that simply scaling up a minimalist implementation that uses only random sampling and direct self-verification results in sustained performance improvements that, for example, elevate the Gemini v1.5 Pro model's reasoning capabilities past that of o1-Preview on popular benchmarks. We partially attribute the scalability of sampling-based search to a phenomenon of implicit scaling, where sampling a larger pool of responses in turn improves verification accuracy. We further identify two useful principles for improving self-verification capabilities with test-time compute: (1) comparing across responses provides helpful signals about the locations of errors and hallucinations, and (2) different model output styles are useful for different contexts -- chains of thought are useful for reasoning but harder to verify. We also find that, though accurate verification can be elicited, frontier models demonstrate remarkably weak out-of-box verification capabilities and introduce a benchmark to measure progress on these deficiencies.

Summary

AI-Generated Summary

PDF82February 5, 2025