TrajSelector: Aprovechando Representaciones Latentes para una Selección Eficiente y Efectiva del Mejor de N en Modelos de Razonamiento a Gran Escala

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mostrado avances notables en tareas de razonamiento complejo, en gran parte habilitados por paradigmas de escalado en tiempo de prueba (TTS, por sus siglas en inglés) que asignan recursos computacionales adicionales durante la inferencia. Entre estos, el TTS externo (particularmente el paradigma de selección Best-of-N) produce mejoras escalables en el rendimiento al seleccionar entre múltiples trayectorias de razonamiento generadas de manera independiente. Sin embargo, este enfoque enfrenta limitaciones clave: (i) el alto costo computacional de implementar modelos de recompensa de proceso, y (ii) la subutilización de las representaciones latentes intrínsecas del LLM. Presentamos TrajSelector, un marco Best-of-N eficiente y efectivo que aprovecha los estados ocultos en el LLM muestreador para la puntuación a nivel de proceso. Un verificador ligero (con solo 0.6 mil millones de parámetros) evalúa la calidad de las trayectorias paso a paso y luego agrega estas puntuaciones para identificar la trayectoria de razonamiento óptima. Nuestro marco emplea una receta de entrenamiento completamente basada en datos y de extremo a extremo que elimina la dependencia de anotaciones masivas a nivel de paso. Los resultados experimentales en cinco benchmarks demuestran que TrajSelector ofrece ganancias de rendimiento consistentes. En configuraciones Best-of-32, supera la votación mayoritaria en un 4.61% de precisión y supera a los modelos de recompensa de proceso existentes en un rango de 4.31% a 12.21%, todo ello manteniendo costos de inferencia más bajos.

English

Large language models (LLMs) have shown remarkable progress in complex reasoning tasks, largely enabled by test-time scaling (TTS) paradigms that allocate additional compute during inference. Among these, external TTS (particularly the Best-of-N selection paradigm) yields scalable performance improvements by selecting from multiple independently generated reasoning trajectories. However, this approach faces key limitations: (i) the high computational overhead of deploying process reward models, (ii) the underutilization of the LLM's intrinsic latent representations. We introduce TrajSelector, an efficient and effective Best-of-N framework that exploit the hidden states in the sampler LLM for process-level scoring. A lightweight verifier (with only 0.6B parameters) evaluates the quality of step-wise trajectory, and then aggregates these scores to identify the optimal reasoning trajectory. Our framework employs a fully data-driven, end-to-end training recipe that eliminates reliance on massive step-level annotations. Experiential results across five benchmarks demonstrate that TrajSelector delivers consistent performance gains. In Best-of-32 settings, it surpasses majority voting by 4.61% accuracy and outperforms existing process reward models by 4.31% to 12.21%, all while maintaining lower inference costs.

TrajSelector: Aprovechando Representaciones Latentes para una Selección Eficiente y Efectiva del Mejor de N en Modelos de Razonamiento a Gran Escala

TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model

Resumen

Support