TrajSelector: Использование латентных представлений для эффективного и результативного выбора лучшего из N в крупных моделях рассуждений
TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
October 18, 2025
Авторы: Bin Yu, Xinming Wang, Shijie Lian, Haotian Li, Changti Wu, Ruina Hu, Bailing Wang, Yuliang Wei, Kai Chen
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют значительный прогресс в выполнении сложных задач логического рассуждения, во многом благодаря парадигмам масштабирования на этапе тестирования (TTS), которые выделяют дополнительные вычислительные ресурсы во время вывода. Среди них внешнее TTS (в частности, парадигма выбора "Лучший из N") обеспечивает масштабируемое улучшение производительности за счет выбора из множества независимо сгенерированных траекторий рассуждений. Однако этот подход сталкивается с ключевыми ограничениями: (i) высокие вычислительные затраты на использование моделей оценки процесса, (ii) недостаточное использование внутренних латентных представлений LLM. Мы представляем TrajSelector, эффективный и результативный фреймворк "Лучший из N", который использует скрытые состояния в модели-семплере для оценки на уровне процесса. Легковесный верификатор (всего 0,6 млрд параметров) оценивает качество пошаговых траекторий, а затем агрегирует эти оценки для определения оптимальной траектории рассуждений. Наш фреймворк использует полностью управляемый данными, сквозной процесс обучения, который устраняет зависимость от массивных аннотаций на уровне шагов. Экспериментальные результаты на пяти бенчмарках показывают, что TrajSelector обеспечивает стабильное улучшение производительности. В настройках "Лучший из 32" он превосходит метод большинства голосов на 4,61% по точности и опережает существующие модели оценки процесса на 4,31% до 12,21%, сохраняя при этом более низкие затраты на вывод.
English
Large language models (LLMs) have shown remarkable progress in complex
reasoning tasks, largely enabled by test-time scaling (TTS) paradigms that
allocate additional compute during inference. Among these, external TTS
(particularly the Best-of-N selection paradigm) yields scalable performance
improvements by selecting from multiple independently generated reasoning
trajectories. However, this approach faces key limitations: (i) the high
computational overhead of deploying process reward models, (ii) the
underutilization of the LLM's intrinsic latent representations. We introduce
TrajSelector, an efficient and effective Best-of-N framework that exploit the
hidden states in the sampler LLM for process-level scoring. A lightweight
verifier (with only 0.6B parameters) evaluates the quality of step-wise
trajectory, and then aggregates these scores to identify the optimal reasoning
trajectory. Our framework employs a fully data-driven, end-to-end training
recipe that eliminates reliance on massive step-level annotations. Experiential
results across five benchmarks demonstrate that TrajSelector delivers
consistent performance gains. In Best-of-32 settings, it surpasses majority
voting by 4.61% accuracy and outperforms existing process reward models by
4.31% to 12.21%, all while maintaining lower inference costs.