TrajSelector : Exploitation des représentations latentes pour une sélection efficace et performante du meilleur parmi N dans les grands modèles de raisonnement
TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
October 18, 2025
papers.authors: Bin Yu, Xinming Wang, Shijie Lian, Haotian Li, Changti Wu, Ruina Hu, Bailing Wang, Yuliang Wei, Kai Chen
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont montré des progrès remarquables dans les tâches de raisonnement complexe, largement facilités par les paradigmes de mise à l'échelle au moment du test (TTS) qui allouent des ressources de calcul supplémentaires lors de l'inférence. Parmi ceux-ci, le TTS externe (en particulier le paradigme de sélection Best-of-N) permet des améliorations de performance évolutives en sélectionnant parmi plusieurs trajectoires de raisonnement générées indépendamment. Cependant, cette approche présente des limites clés : (i) la surcharge computationnelle élevée liée au déploiement de modèles de récompense de processus, (ii) la sous-utilisation des représentations latentes intrinsèques du LLM. Nous présentons TrajSelector, un cadre Best-of-N efficace et efficient qui exploite les états cachés du LLM échantillonneur pour un scoring au niveau du processus. Un vérificateur léger (avec seulement 0,6 milliard de paramètres) évalue la qualité des trajectoires étape par étape, puis agrège ces scores pour identifier la trajectoire de raisonnement optimale. Notre cadre utilise une méthode d'entraînement entièrement pilotée par les données et de bout en bout, éliminant la dépendance aux annotations massives au niveau des étapes. Les résultats expérimentaux sur cinq benchmarks démontrent que TrajSelector offre des gains de performance constants. Dans des configurations Best-of-32, il surpasse le vote majoritaire de 4,61 % en précision et dépasse les modèles de récompense de processus existants de 4,31 % à 12,21 %, tout en maintenant des coûts d'inférence plus faibles.
English
Large language models (LLMs) have shown remarkable progress in complex
reasoning tasks, largely enabled by test-time scaling (TTS) paradigms that
allocate additional compute during inference. Among these, external TTS
(particularly the Best-of-N selection paradigm) yields scalable performance
improvements by selecting from multiple independently generated reasoning
trajectories. However, this approach faces key limitations: (i) the high
computational overhead of deploying process reward models, (ii) the
underutilization of the LLM's intrinsic latent representations. We introduce
TrajSelector, an efficient and effective Best-of-N framework that exploit the
hidden states in the sampler LLM for process-level scoring. A lightweight
verifier (with only 0.6B parameters) evaluates the quality of step-wise
trajectory, and then aggregates these scores to identify the optimal reasoning
trajectory. Our framework employs a fully data-driven, end-to-end training
recipe that eliminates reliance on massive step-level annotations. Experiential
results across five benchmarks demonstrate that TrajSelector delivers
consistent performance gains. In Best-of-32 settings, it surpasses majority
voting by 4.61% accuracy and outperforms existing process reward models by
4.31% to 12.21%, all while maintaining lower inference costs.