균형적 사고를 통한 효율적 추론
Efficient Reasoning with Balanced Thinking
March 12, 2026
저자: Yulin Li, Tengyao Tu, Li Ding, Junjie Wang, Huiling Zhen, Yixin Chen, Yong Li, Zhuotao Tian
cs.AI
초록
대규모 추론 모델(LRMs)은 놀라운 추론 능력을 보여주지만, 단순한 문제에 대해 불필요한 계산 단계를 소모하는 과잉 사고(overthinking) 또는 내재된 능력에도 불구하고 충분한 추론 경로를 탐색하지 못하는 과소 사고(underthinking) 문제를 자주 겪습니다. 이러한 문제는 비효율성과 잠재적 부정확성을 초래하여 자원이 제한된 환경에서의 실질적인 적용을 제한합니다. 반성적 키워드 억제나 추론 길이 조정 등 기존의 과잉 사고 완화 방법들은 의도치 않게 과소 사고를 유발하여 정확도를 훼손할 수 있습니다. 따라서 본 연구에서는 균형 잡힌 사고를 통한 효율적인 추론을 달성하는 학습 불필요( training-free) 프레임워크인 ReBalance를 제안합니다. ReBalance는 신뢰도를 추론 동역학의 연속적 지표로 활용하여, 높은 신뢰도 분산을 통해 과잉 사고를, 일관된 과잉 신뢰를 통해 과소 사고를 식별합니다. 소규모 데이터셋의 은닉 상태(hidden states)를 추론 모드 프로토타입으로 집계함으로써, LRM의 추론 궤적을 안내하는 조정 벡터(steering vector)를 계산합니다. 동적 제어 함수는 실시간 신뢰도를 기반으로 이 벡터의 강도와 방향을 조절하여, 과잉 사고 시 중복성을 제거하고 과소 사고 시 탐색을 촉진합니다. 0.5B부터 32B에 이르는 4가지 모델과 수학 추론, 일반 질의응답, 코딩 작업의 9가지 벤치마크에서 수행한 광범위한 실험 결과, ReBalance가 정확도를 향상시키면서 출력 중복성을 효과적으로 감소시켜 효율적이고 견고한 LRM 배치를 위한 일반적이며 학습이 필요 없고 플러그 앤 플레이 방식의 전략을 제공함을 입증했습니다. 코드는 https://github.com/yu-lin-li/ReBalance 에서 확인할 수 있습니다.
English
Large Reasoning Models (LRMs) have shown remarkable reasoning capabilities, yet they often suffer from overthinking, expending redundant computational steps on simple problems, or underthinking, failing to explore sufficient reasoning paths despite inherent capabilities. These issues lead to inefficiencies and potential inaccuracies, limiting practical deployment in resource-constrained settings. Existing methods to mitigate overthinking, such as suppressing reflective keywords or adjusting reasoning length, may inadvertently induce underthinking, compromising accuracy. Therefore, we propose ReBalance, a training-free framework that achieves efficient reasoning with balanced thinking. ReBalance leverages confidence as a continuous indicator of reasoning dynamics, identifying overthinking through high confidence variance and underthinking via consistent overconfidence. By aggregating hidden states from a small-scale dataset into reasoning mode prototypes, we compute a steering vector to guide LRMs' reasoning trajectories. A dynamic control function modulates this vector's strength and direction based on real-time confidence, pruning redundancy during overthinking, and promoting exploration during underthinking. Extensive experiments conducted on four models ranging from 0.5B to 32B, and across nine benchmarks in math reasoning, general question answering, and coding tasks demonstrate that ReBalance effectively reduces output redundancy while improving accuracy, offering a general, training-free, and plug-and-play strategy for efficient and robust LRM deployment. Code is available at https://github.com/yu-lin-li/ReBalance .