TrajSelector: Sfruttare le rappresentazioni latenti per un Best-of-N efficiente ed efficace nei modelli di ragionamento su larga scala
TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
October 18, 2025
Autori: Bin Yu, Xinming Wang, Shijie Lian, Haotian Li, Changti Wu, Ruina Hu, Bailing Wang, Yuliang Wei, Kai Chen
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno mostrato progressi significativi nei compiti di ragionamento complesso, resi possibili in gran parte dai paradigmi di scalabilità al momento del test (TTS) che allocano risorse computazionali aggiuntive durante l'inferenza. Tra questi, il TTS esterno (in particolare il paradigma di selezione Best-of-N) produce miglioramenti scalabili delle prestazioni selezionando tra più traiettorie di ragionamento generate in modo indipendente. Tuttavia, questo approccio presenta limitazioni chiave: (i) l'elevato sovraccarico computazionale legato all'impiego di modelli di ricompensa basati sul processo, (ii) il sottoutilizzo delle rappresentazioni latenti intrinseche dell'LLM. Introduciamo TrajSelector, un framework Best-of-N efficiente ed efficace che sfrutta gli stati nascosti nel modello campionatore LLM per la valutazione a livello di processo. Un verificatore leggero (con soli 0,6 miliardi di parametri) valuta la qualità delle traiettorie passo-passo, per poi aggregare questi punteggi e identificare la traiettoria di ragionamento ottimale. Il nostro framework utilizza una procedura di addestramento completamente basata sui dati e end-to-end, eliminando la dipendenza da annotazioni massive a livello di passo. I risultati sperimentali su cinque benchmark dimostrano che TrajSelector offre miglioramenti di prestazioni consistenti. In contesti Best-of-32, supera il voto a maggioranza con un aumento di accuratezza del 4,61% e supera i modelli di ricompensa basati sul processo esistenti con margini compresi tra il 4,31% e il 12,21%, mantenendo al contempo costi di inferenza inferiori.
English
Large language models (LLMs) have shown remarkable progress in complex
reasoning tasks, largely enabled by test-time scaling (TTS) paradigms that
allocate additional compute during inference. Among these, external TTS
(particularly the Best-of-N selection paradigm) yields scalable performance
improvements by selecting from multiple independently generated reasoning
trajectories. However, this approach faces key limitations: (i) the high
computational overhead of deploying process reward models, (ii) the
underutilization of the LLM's intrinsic latent representations. We introduce
TrajSelector, an efficient and effective Best-of-N framework that exploit the
hidden states in the sampler LLM for process-level scoring. A lightweight
verifier (with only 0.6B parameters) evaluates the quality of step-wise
trajectory, and then aggregates these scores to identify the optimal reasoning
trajectory. Our framework employs a fully data-driven, end-to-end training
recipe that eliminates reliance on massive step-level annotations. Experiential
results across five benchmarks demonstrate that TrajSelector delivers
consistent performance gains. In Best-of-32 settings, it surpasses majority
voting by 4.61% accuracy and outperforms existing process reward models by
4.31% to 12.21%, all while maintaining lower inference costs.