ChatPaper.aiChatPaper

TrajSelector: 대규모 추론 모델에서 효율적이고 효과적인 Best-of-N을 위한 잠재 표현 활용

TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model

October 18, 2025
저자: Bin Yu, Xinming Wang, Shijie Lian, Haotian Li, Changti Wu, Ruina Hu, Bailing Wang, Yuliang Wei, Kai Chen
cs.AI

초록

대규모 언어 모델(LLMs)은 복잡한 추론 작업에서 놀라운 진전을 보여왔으며, 이는 주로 추론 시 추가적인 컴퓨팅 자원을 할당하는 테스트 타임 스케일링(TTS) 패러다임 덕분입니다. 이 중 외부 TTS(특히 Best-of-N 선택 패러다임)는 여러 독립적으로 생성된 추론 경로 중에서 선택함으로써 확장 가능한 성능 향상을 이끌어냅니다. 그러나 이 접근법은 두 가지 주요 한계에 직면해 있습니다: (i) 프로세스 보상 모델을 배포하는 데 드는 높은 계산 비용, (ii) LLM의 내재적 잠재 표현의 미흡한 활용. 우리는 TrajSelector를 소개합니다. 이는 샘플러 LLM의 숨겨진 상태를 활용하여 프로세스 수준의 점수를 매기는 효율적이고 효과적인 Best-of-N 프레임워크입니다. 경량 검증기(단 0.6B 매개변수)는 단계별 추론 경로의 품질을 평가한 후, 이러한 점수를 집계하여 최적의 추론 경로를 식별합니다. 우리의 프레임워크는 대규모 단계별 주석에 의존하지 않는 완전히 데이터 기반의 종단 간 학습 방식을 채택합니다. 다섯 가지 벤치마크에서의 실험 결과는 TrajSelector가 일관된 성능 향상을 제공함을 보여줍니다. Best-of-32 설정에서, 이는 다수결 투표를 4.61% 정확도로 능가하며, 기존 프로세스 보상 모델을 4.31%에서 12.21%까지 앞서면서도 더 낮은 추론 비용을 유지합니다.
English
Large language models (LLMs) have shown remarkable progress in complex reasoning tasks, largely enabled by test-time scaling (TTS) paradigms that allocate additional compute during inference. Among these, external TTS (particularly the Best-of-N selection paradigm) yields scalable performance improvements by selecting from multiple independently generated reasoning trajectories. However, this approach faces key limitations: (i) the high computational overhead of deploying process reward models, (ii) the underutilization of the LLM's intrinsic latent representations. We introduce TrajSelector, an efficient and effective Best-of-N framework that exploit the hidden states in the sampler LLM for process-level scoring. A lightweight verifier (with only 0.6B parameters) evaluates the quality of step-wise trajectory, and then aggregates these scores to identify the optimal reasoning trajectory. Our framework employs a fully data-driven, end-to-end training recipe that eliminates reliance on massive step-level annotations. Experiential results across five benchmarks demonstrate that TrajSelector delivers consistent performance gains. In Best-of-32 settings, it surpasses majority voting by 4.61% accuracy and outperforms existing process reward models by 4.31% to 12.21%, all while maintaining lower inference costs.
PDF333October 21, 2025