Replanteando la granularidad óptima de verificación para el escalado eficiente en cómputo durante las pruebas
Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling
May 16, 2025
Autores: Hao Mark Chen, Guanxi Lu, Yasuyuki Okoshi, Zhiwen Mo, Masato Motomura, Hongxiang Fan
cs.AI
Resumen
El escalado en tiempo de prueba (TTS) ha demostrado ser efectivo para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs). La verificación juega un papel clave en TTS, influyendo simultáneamente en (1) el rendimiento del razonamiento y (2) la eficiencia computacional, debido a la calidad y el costo computacional de la verificación. En este trabajo, cuestionamos los paradigmas convencionales de verificación y realizamos el primer intento de investigar sistemáticamente el impacto de la granularidad de la verificación, es decir, con qué frecuencia se invoca el verificador durante la generación, más allá de verificar solo la salida final o los pasos individuales de generación. Para ello, presentamos Variable Granularity Search (VG-Search), un algoritmo unificado que generaliza la búsqueda por haz (beam search) y el muestreo Best-of-N mediante un parámetro de granularidad ajustable *g*. Experimentos exhaustivos con VG-Search bajo diferentes presupuestos computacionales, configuraciones generador-verificador y atributos de tareas revelan que la selección dinámica de *g* puede mejorar la eficiencia computacional y el comportamiento de escalado. Basándonos en estos hallazgos, proponemos estrategias adaptativas de VG-Search que logran mejoras en precisión de hasta un 3.1\% sobre la búsqueda por haz y un 3.6\% sobre Best-of-N, mientras reducen los FLOPs en más de un 52\%. Liberaremos el código para apoyar futuras investigaciones.
English
Test-time scaling (TTS) has proven effective in enhancing the reasoning
capabilities of large language models (LLMs). Verification plays a key role in
TTS, simultaneously influencing (1) reasoning performance and (2) compute
efficiency, due to the quality and computational cost of verification. In this
work, we challenge the conventional paradigms of verification, and make the
first attempt toward systematically investigating the impact of verification
granularity-that is, how frequently the verifier is invoked during generation,
beyond verifying only the final output or individual generation steps. To this
end, we introduce Variable Granularity Search (VG-Search), a unified algorithm
that generalizes beam search and Best-of-N sampling via a tunable granularity
parameter g. Extensive experiments with VG-Search under varying compute
budgets, generator-verifier configurations, and task attributes reveal that
dynamically selecting g can improve the compute efficiency and scaling
behavior. Building on these findings, we propose adaptive VG-Search strategies
that achieve accuracy gains of up to 3.1\% over Beam Search and 3.6\% over
Best-of-N, while reducing FLOPs by over 52\%. We will open-source the code to
support future research.