PETS: Un Marco de Principios para la Asignación Óptima de Trayectorias hacia una Autoconsistencia Eficiente en Tiempo de Prueba

Resumen

La escalada en tiempo de prueba puede mejorar el rendimiento del modelo mediante la agregación de trayectorias de razonamiento estocástico. Sin embargo, lograr una autoconsistencia eficiente en muestras durante la prueba con un presupuesto limitado sigue siendo un desafío pendiente. Presentamos PETS (Autoconsistencia en Tiempo de Prueba Principlista y Eficiente), que inicia un estudio principlista de la asignación de trayectorias mediante un marco de optimización. Central a nuestro enfoque es la tasa de autoconsistencia, una nueva medida definida como el acuerdo con el voto mayoritario de presupuesto infinito. Esta formulación hace que la asignación eficiente de muestras en tiempo de prueba esté teóricamente fundamentada y sea susceptible de análisis riguroso. Estudiamos tanto entornos fuera de línea como en línea. En el régimen fuera de línea, donde todas las preguntas se conocen de antemano, conectamos la asignación de trayectorias con la crowdsourcing, un área clásica y bien desarrollada, modelando las trazas de razonamiento como trabajadores. Esta perspectiva nos permite aprovechar la rica teoría existente, generando garantías teóricas y un algoritmo de asignación eficiente basado en votación mayoritaria. En el régimen de transmisión en línea, donde las preguntas llegan secuencialmente y las asignaciones deben hacerse sobre la marcha, proponemos un método novedoso inspirado en el marco fuera de línea. Nuestro enfoque adapta los presupuestos a la dificultad de la pregunta mientras preserva sólidas garantías teóricas y eficiencia computacional. Los experimentos muestran que PETS supera consistentemente a la asignación uniforme. En GPQA, PETS logra una autoconsistencia perfecta en ambos entornos mientras reduce el presupuesto de muestreo hasta en un 75% (fuera de línea) y 55% (en línea) en comparación con la asignación uniforme. El código está disponible en https://github.com/ZDCSlab/PETS.

English

Test-time scaling can improve model performance by aggregating stochastic reasoning trajectories. However, achieving sample-efficient test-time self-consistency under a limited budget remains an open challenge. We introduce PETS (Principled and Efficient Test-TimeSelf-Consistency), which initiates a principled study of trajectory allocation through an optimization framework. Central to our approach is the self-consistency rate, a new measure defined as agreement with the infinite-budget majority vote. This formulation makes sample-efficient test-time allocation theoretically grounded and amenable to rigorous analysis. We study both offline and online settings. In the offline regime, where all questions are known in advance, we connect trajectory allocation to crowdsourcing, a classic and well-developed area, by modeling reasoning traces as workers. This perspective allows us to leverage rich existing theory, yielding theoretical guarantees and an efficient majority-voting-based allocation algorithm. In the online streaming regime, where questions arrive sequentially and allocations must be made on the fly, we propose a novel method inspired by the offline framework. Our approach adapts budgets to question difficulty while preserving strong theoretical guarantees and computational efficiency. Experiments show that PETS consistently outperforms uniform allocation. On GPQA, PETS achieves perfect self-consistency in both settings while reducing the sampling budget by up to 75% (offline) and 55% (online) relative to uniform allocation. Code is available at https://github.com/ZDCSlab/PETS.

PETS: Un Marco de Principios para la Asignación Óptima de Trayectorias hacia una Autoconsistencia Eficiente en Tiempo de Prueba

PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency

Resumen

Support