Replanteando la granularidad óptima de verificación para el escalado eficiente en cómputo durante las pruebas

Resumen

El escalado en tiempo de prueba (TTS) ha demostrado ser efectivo para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs). La verificación juega un papel clave en TTS, influyendo simultáneamente en (1) el rendimiento del razonamiento y (2) la eficiencia computacional, debido a la calidad y el costo computacional de la verificación. En este trabajo, cuestionamos los paradigmas convencionales de verificación y realizamos el primer intento de investigar sistemáticamente el impacto de la granularidad de la verificación, es decir, con qué frecuencia se invoca el verificador durante la generación, más allá de verificar solo la salida final o los pasos individuales de generación. Para ello, presentamos Variable Granularity Search (VG-Search), un algoritmo unificado que generaliza la búsqueda por haz (beam search) y el muestreo Best-of-N mediante un parámetro de granularidad ajustable *g*. Experimentos exhaustivos con VG-Search bajo diferentes presupuestos computacionales, configuraciones generador-verificador y atributos de tareas revelan que la selección dinámica de *g* puede mejorar la eficiencia computacional y el comportamiento de escalado. Basándonos en estos hallazgos, proponemos estrategias adaptativas de VG-Search que logran mejoras en precisión de hasta un 3.1\% sobre la búsqueda por haz y un 3.6\% sobre Best-of-N, mientras reducen los FLOPs en más de un 52\%. Liberaremos el código para apoyar futuras investigaciones.

English

Test-time scaling (TTS) has proven effective in enhancing the reasoning capabilities of large language models (LLMs). Verification plays a key role in TTS, simultaneously influencing (1) reasoning performance and (2) compute efficiency, due to the quality and computational cost of verification. In this work, we challenge the conventional paradigms of verification, and make the first attempt toward systematically investigating the impact of verification granularity-that is, how frequently the verifier is invoked during generation, beyond verifying only the final output or individual generation steps. To this end, we introduce Variable Granularity Search (VG-Search), a unified algorithm that generalizes beam search and Best-of-N sampling via a tunable granularity parameter g. Extensive experiments with VG-Search under varying compute budgets, generator-verifier configurations, and task attributes reveal that dynamically selecting g can improve the compute efficiency and scaling behavior. Building on these findings, we propose adaptive VG-Search strategies that achieve accuracy gains of up to 3.1\% over Beam Search and 3.6\% over Best-of-N, while reducing FLOPs by over 52\%. We will open-source the code to support future research.

Replanteando la granularidad óptima de verificación para el escalado eficiente en cómputo durante las pruebas

Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling

Resumen

Support