Muestreo, Escrutinio y Escalado: Búsqueda Efectiva en Tiempo de Inferencia mediante Escalado de Verificación
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification
February 3, 2025
Autores: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi
cs.AI
Resumen
La búsqueda basada en muestreo, un paradigma simple para utilizar la computación en tiempo de prueba, implica generar múltiples respuestas candidatas y seleccionar la mejor, típicamente verificando cada respuesta en cuanto a su corrección. En este documento, estudiamos las tendencias de escalado que rigen la búsqueda basada en muestreo. Entre nuestros hallazgos se encuentra que simplemente aumentar la escala de una implementación minimalista que utiliza solo muestreo aleatorio y autoverificación directa resulta en mejoras sostenidas en el rendimiento que, por ejemplo, elevan las capacidades de razonamiento del modelo Gemini v1.5 Pro por encima de las de o1-Preview en benchmarks populares. Atribuimos parcialmente la escalabilidad de la búsqueda basada en muestreo a un fenómeno de escalado implícito, donde muestrear un conjunto más grande de respuestas mejora a su vez la precisión de la verificación. También identificamos dos principios útiles para mejorar las capacidades de autoverificación con computación en tiempo de prueba: (1) comparar entre respuestas proporciona señales útiles sobre la ubicación de errores y alucinaciones, y (2) diferentes estilos de salida del modelo son útiles para diferentes contextos: las cadenas de pensamiento son útiles para el razonamiento pero más difíciles de verificar. Además, encontramos que, aunque se puede obtener una verificación precisa, los modelos de vanguardia muestran capacidades de verificación sorprendentemente débiles de fábrica e introducen un benchmark para medir el progreso en estas deficiencias.
English
Sampling-based search, a simple paradigm for utilizing test-time compute,
involves generating multiple candidate responses and selecting the best one --
typically by verifying each response for correctness. In this paper, we study
the scaling trends governing sampling-based search. Among our findings is that
simply scaling up a minimalist implementation that uses only random sampling
and direct self-verification results in sustained performance improvements
that, for example, elevate the Gemini v1.5 Pro model's reasoning capabilities
past that of o1-Preview on popular benchmarks. We partially attribute the
scalability of sampling-based search to a phenomenon of implicit scaling, where
sampling a larger pool of responses in turn improves verification accuracy. We
further identify two useful principles for improving self-verification
capabilities with test-time compute: (1) comparing across responses provides
helpful signals about the locations of errors and hallucinations, and (2)
different model output styles are useful for different contexts -- chains of
thought are useful for reasoning but harder to verify. We also find that,
though accurate verification can be elicited, frontier models demonstrate
remarkably weak out-of-box verification capabilities and introduce a benchmark
to measure progress on these deficiencies.Summary
AI-Generated Summary