ChatPaper.aiChatPaper

잠재적 조정 벡터를 통한 분수적 추론이 추론 시간 계산을 개선한다

Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute

June 18, 2025
저자: Sheng Liu, Tianlang Chen, Pan Lu, Haotian Ye, Yizheng Chen, Lei Xing, James Zou
cs.AI

초록

테스트 시간 계산(Test-time compute)은 대형 언어 모델(LLMs)의 성능을 향상시키는 강력한 패러다임으로 부상했으며, 다중 출력을 생성하거나 개별 추론 체인을 개선함으로써 답변 정확도를 크게 높일 수 있습니다. 그러나 Best-of-N, 다수결 투표, 자기 반영과 같은 기존 방법들은 일반적으로 입력에 걸쳐 균일한 방식으로 추론을 적용하는데, 이는 서로 다른 문제가 서로 다른 수준의 추론 깊이를 요구할 수 있다는 사실을 간과합니다. 본 연구에서는 고정된 지시 프롬프트의 한계를 넘어, 추론 시점에 추론 강도를 연속적으로 제어할 수 있는 학습이 필요 없고 모델에 독립적인 프레임워크인 Fractional Reasoning을 제안합니다. 우리의 방법은 더 깊은 추론과 관련된 잠재적 조정 벡터를 추출하고 조정 가능한 스케일링 계수로 이를 재적용함으로써, 모델이 각 입력의 복잡성에 맞게 추론 과정을 조정할 수 있도록 합니다. 이는 테스트 시간 스케일링의 두 가지 주요 모드를 지원합니다: (1) Best-of-N, 다수결 투표와 같은 폭 기반 전략에서 출력 품질을 개선하고, (2) 자기 반영과 같은 깊이 기반 전략에서 개별 추론 체인의 정확성을 향상시킵니다. GSM8K, MATH500, GPQA에 대한 실험을 통해 Fractional Reasoning이 다양한 추론 작업과 모델에서 일관되게 성능을 개선함을 입증했습니다.
English
Test-time compute has emerged as a powerful paradigm for improving the performance of large language models (LLMs), where generating multiple outputs or refining individual chains can significantly boost answer accuracy. However, existing methods like Best-of-N, majority voting, and self-reflection typically apply reasoning in a uniform way across inputs, overlooking the fact that different problems may require different levels of reasoning depth. In this work, we propose Fractional Reasoning, a training-free and model-agnostic framework that enables continuous control over reasoning intensity at inference time, going beyond the limitations of fixed instructional prompts. Our method operates by extracting the latent steering vector associated with deeper reasoning and reapplying it with a tunable scaling factor, allowing the model to tailor its reasoning process to the complexity of each input. This supports two key modes of test-time scaling: (1) improving output quality in breadth-based strategies (e.g., Best-of-N, majority voting), and (2) enhancing the correctness of individual reasoning chains in depth-based strategies (e.g., self-reflection). Experiments on GSM8K, MATH500, and GPQA demonstrate that Fractional Reasoning consistently improves performance across diverse reasoning tasks and models.
PDF12June 30, 2025