TrajSelector: Benutten van Latente Representaties voor Efficiënte en Effectieve Best-of-N in Grote Redeneermodellen
TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
October 18, 2025
Auteurs: Bin Yu, Xinming Wang, Shijie Lian, Haotian Li, Changti Wu, Ruina Hu, Bailing Wang, Yuliang Wei, Kai Chen
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in complexe redeneertaken, grotendeels mogelijk gemaakt door test-time scaling (TTS) paradigma's die extra rekenkracht toewijzen tijdens inferentie. Onder deze paradigma's levert externe TTS (met name het Best-of-N selectieparadigma) schaalbare prestatieverbeteringen op door te selecteren uit meerdere onafhankelijk gegenereerde redeneertrajecten. Deze aanpak kent echter belangrijke beperkingen: (i) de hoge rekenkosten van het inzetten van procesbeloningsmodellen, (ii) het onderbenutten van de intrinsieke latente representaties van het LLM. Wij introduceren TrajSelector, een efficiënt en effectief Best-of-N raamwerk dat gebruikmaakt van de verborgen toestanden in het sampler LLM voor procesniveau-scoring. Een lichtgewicht verifier (met slechts 0,6B parameters) evalueert de kwaliteit van stapsgewijze trajecten en aggregeert vervolgens deze scores om het optimale redeneertraject te identificeren. Ons raamwerk maakt gebruik van een volledig data-gedreven, end-to-end trainingsmethode die de afhankelijkheid van massale stapniveau-annotaties elimineert. Experimentele resultaten over vijf benchmarks tonen aan dat TrajSelector consistente prestatieverbeteringen levert. In Best-of-32 instellingen overtreft het majority voting met 4,61% nauwkeurigheid en presteert het beter dan bestaande procesbeloningsmodellen met 4,31% tot 12,21%, terwijl het tegelijkertijd lagere inferentiekosten handhaaft.
English
Large language models (LLMs) have shown remarkable progress in complex
reasoning tasks, largely enabled by test-time scaling (TTS) paradigms that
allocate additional compute during inference. Among these, external TTS
(particularly the Best-of-N selection paradigm) yields scalable performance
improvements by selecting from multiple independently generated reasoning
trajectories. However, this approach faces key limitations: (i) the high
computational overhead of deploying process reward models, (ii) the
underutilization of the LLM's intrinsic latent representations. We introduce
TrajSelector, an efficient and effective Best-of-N framework that exploit the
hidden states in the sampler LLM for process-level scoring. A lightweight
verifier (with only 0.6B parameters) evaluates the quality of step-wise
trajectory, and then aggregates these scores to identify the optimal reasoning
trajectory. Our framework employs a fully data-driven, end-to-end training
recipe that eliminates reliance on massive step-level annotations. Experiential
results across five benchmarks demonstrate that TrajSelector delivers
consistent performance gains. In Best-of-32 settings, it surpasses majority
voting by 4.61% accuracy and outperforms existing process reward models by
4.31% to 12.21%, all while maintaining lower inference costs.