TrajSelector: Aprovechando Representaciones Latentes para una Selección Eficiente y Efectiva del Mejor de N en Modelos de Razonamiento a Gran Escala
TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
October 18, 2025
Autores: Bin Yu, Xinming Wang, Shijie Lian, Haotian Li, Changti Wu, Ruina Hu, Bailing Wang, Yuliang Wei, Kai Chen
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mostrado avances notables en tareas de razonamiento complejo, en gran parte habilitados por paradigmas de escalado en tiempo de prueba (TTS, por sus siglas en inglés) que asignan recursos computacionales adicionales durante la inferencia. Entre estos, el TTS externo (particularmente el paradigma de selección Best-of-N) produce mejoras escalables en el rendimiento al seleccionar entre múltiples trayectorias de razonamiento generadas de manera independiente. Sin embargo, este enfoque enfrenta limitaciones clave: (i) el alto costo computacional de implementar modelos de recompensa de proceso, y (ii) la subutilización de las representaciones latentes intrínsecas del LLM. Presentamos TrajSelector, un marco Best-of-N eficiente y efectivo que aprovecha los estados ocultos en el LLM muestreador para la puntuación a nivel de proceso. Un verificador ligero (con solo 0.6 mil millones de parámetros) evalúa la calidad de las trayectorias paso a paso y luego agrega estas puntuaciones para identificar la trayectoria de razonamiento óptima. Nuestro marco emplea una receta de entrenamiento completamente basada en datos y de extremo a extremo que elimina la dependencia de anotaciones masivas a nivel de paso. Los resultados experimentales en cinco benchmarks demuestran que TrajSelector ofrece ganancias de rendimiento consistentes. En configuraciones Best-of-32, supera la votación mayoritaria en un 4.61% de precisión y supera a los modelos de recompensa de proceso existentes en un rango de 4.31% a 12.21%, todo ello manteniendo costos de inferencia más bajos.
English
Large language models (LLMs) have shown remarkable progress in complex
reasoning tasks, largely enabled by test-time scaling (TTS) paradigms that
allocate additional compute during inference. Among these, external TTS
(particularly the Best-of-N selection paradigm) yields scalable performance
improvements by selecting from multiple independently generated reasoning
trajectories. However, this approach faces key limitations: (i) the high
computational overhead of deploying process reward models, (ii) the
underutilization of the LLM's intrinsic latent representations. We introduce
TrajSelector, an efficient and effective Best-of-N framework that exploit the
hidden states in the sampler LLM for process-level scoring. A lightweight
verifier (with only 0.6B parameters) evaluates the quality of step-wise
trajectory, and then aggregates these scores to identify the optimal reasoning
trajectory. Our framework employs a fully data-driven, end-to-end training
recipe that eliminates reliance on massive step-level annotations. Experiential
results across five benchmarks demonstrate that TrajSelector delivers
consistent performance gains. In Best-of-32 settings, it surpasses majority
voting by 4.61% accuracy and outperforms existing process reward models by
4.31% to 12.21%, all while maintaining lower inference costs.