TrajSelector: Nutzung latenter Repräsentationen für effiziente und effektive Best-of-N-Auswahl in großen Reasoning-Modellen
TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
October 18, 2025
papers.authors: Bin Yu, Xinming Wang, Shijie Lian, Haotian Li, Changti Wu, Ruina Hu, Bailing Wang, Yuliang Wei, Kai Chen
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei komplexen Denkaufgaben gezeigt, die weitgehend durch Testzeit-Skalierung (TTS)-Paradigmen ermöglicht werden, die zusätzliche Rechenleistung während der Inferenz bereitstellen. Unter diesen ermöglicht das externe TTS (insbesondere das Best-of-N-Auswahlparadigma) skalierbare Leistungsverbesserungen, indem aus mehreren unabhängig generierten Denkpfaden ausgewählt wird. Dieser Ansatz steht jedoch vor wesentlichen Herausforderungen: (i) der hohe Rechenaufwand für den Einsatz von Prozessbewertungsmodellen, (ii) die unzureichende Nutzung der intrinsischen latenten Repräsentationen des LLMs. Wir stellen TrajSelector vor, ein effizientes und effektives Best-of-N-Framework, das die verborgenen Zustände im Sampler-LLM für die prozessbasierte Bewertung nutzt. Ein leichtgewichtiger Verifizierer (mit nur 0,6 Milliarden Parametern) bewertet die Qualität schrittweiser Denkpfade und aggregiert diese Bewertungen, um den optimalen Denkpfad zu identifizieren. Unser Framework verwendet ein vollständig datengesteuertes, end-to-end Trainingsverfahren, das die Abhängigkeit von umfangreichen schrittweisen Annotationen beseitigt. Experimentelle Ergebnisse über fünf Benchmarks zeigen, dass TrajSelector konsistente Leistungssteigerungen erzielt. In Best-of-32-Szenarien übertrifft es die Mehrheitsabstimmung um 4,61 % an Genauigkeit und übertrifft bestehende Prozessbewertungsmodelle um 4,31 % bis 12,21 %, bei gleichzeitig niedrigeren Inferenzkosten.
English
Large language models (LLMs) have shown remarkable progress in complex
reasoning tasks, largely enabled by test-time scaling (TTS) paradigms that
allocate additional compute during inference. Among these, external TTS
(particularly the Best-of-N selection paradigm) yields scalable performance
improvements by selecting from multiple independently generated reasoning
trajectories. However, this approach faces key limitations: (i) the high
computational overhead of deploying process reward models, (ii) the
underutilization of the LLM's intrinsic latent representations. We introduce
TrajSelector, an efficient and effective Best-of-N framework that exploit the
hidden states in the sampler LLM for process-level scoring. A lightweight
verifier (with only 0.6B parameters) evaluates the quality of step-wise
trajectory, and then aggregates these scores to identify the optimal reasoning
trajectory. Our framework employs a fully data-driven, end-to-end training
recipe that eliminates reliance on massive step-level annotations. Experiential
results across five benchmarks demonstrate that TrajSelector delivers
consistent performance gains. In Best-of-32 settings, it surpasses majority
voting by 4.61% accuracy and outperforms existing process reward models by
4.31% to 12.21%, all while maintaining lower inference costs.