흔적을 추적하다: 효율적이고 정확한 추론을 위한 잠재적 시간 신호
Tracing the Traces: Latent Temporal Signals for Efficient and Accurate Reasoning
October 12, 2025
저자: Martina G. Vilas, Safoora Yousefi, Besmira Nushi, Eric Horvitz, Vidhisha Balachandran
cs.AI
초록
추론 모델은 더 긴 토큰 예산을 통해 더 많은 계산 자원을 할당함으로써 문제 해결 능력을 향상시킵니다. 어떤 추론 흔적이 성공할 가능성이 높은지 식별하는 것은 여전히 중요한 기회로 남아 있습니다: 생산적인 경로를 신뢰성 있게 예측한다면 낭비되는 계산을 상당히 줄이고 전반적인 효율성을 개선할 수 있습니다. 우리는 중간 추론 토큰을 생성하는 동안 모델의 내부 표현의 시간적 진화를 특징짓는 잠재-궤적(Latent-Trajectory) 신호를 소개합니다. 추론의 시작과 끝 사이의 잠재 표현의 전체 변화, 중간 단계에서 누적된 변화, 그리고 이러한 변화가 최종 상태로 나아가는 정도를 측정함으로써, 이러한 신호가 교차 계층(cross-layer) 메트릭과 출력 기반 신뢰도 측정보다 더 신뢰성 있게 해결 정확도를 예측한다는 것을 보여줍니다. 다수의 샘플링된 생성물 간에 답안 선택을 안내하는 데 사용될 때, 잠재-궤적 신호는 다수결 투표보다 테스트 시간 스케일링을 더 효과적이고 효율적으로 만들어, 토큰 사용량을 최대 70%까지 줄이면서도 정확도를 평균 2.6% 유지하거나 개선합니다. 더욱이, 이러한 예측 신호는 종종 추론 흔적의 초기에 나타나, 가장 유망한 후보에 대한 조기 선택과 계산 자원 할당을 가능하게 합니다. 우리의 연구 결과는 추론 시간 효율성을 위한 실용적인 전략뿐만 아니라, 잠재 공간에서 추론 과정이 어떻게 표현되고 구별되는지에 대한 더 깊은 해석 가능성 관점을 제공합니다.
English
Reasoning models improve their problem-solving ability through inference-time
scaling, allocating more compute via longer token budgets. Identifying which
reasoning traces are likely to succeed remains a key opportunity: reliably
predicting productive paths can substantially reduce wasted computation and
improve overall efficiency. We introduce Latent-Trajectory signals that
characterize the temporal evolution of a model's internal representations
during the generation of intermediate reasoning tokens. By measuring the
overall change in latent representations between the start and end of
reasoning, the change accumulated across intermediate steps, and the extent to
which these changes advance toward the final state, we show that these signals
predict solution accuracy more reliably than both cross-layer metrics and
output-based confidence measures. When used to guide answer selection across
multiple sampled generations, Latent-Trajectory signals make test-time scaling
more effective and efficient than majority voting, reducing token usage by up
to 70% while preserving and even improving accuracy by 2.6% on average.
Moreover, these predictive signals often emerge early in the reasoning trace,
enabling early selection and allocation of compute to the most promising
candidates. Our findings contribute not only practical strategies for
inference-time efficiency, but also a deeper interpretability perspective on
how reasoning processes are represented and differentiated in latent space.