STATe-of-Thoughts: 트리-오브-생각을 위한 구조화된 행동 템플릿
STATe-of-Thoughts: Structured Action Templates for Tree-of-Thoughts
February 15, 2026
저자: Zachary Bamberger, Till R. Saenger, Gilad Morad, Ofra Amir, Brandon M. Stewart, Amir Feder
cs.AI
초록
Best-of-N 및 Tree-of-Thoughts와 같은 추론 시간 계산(Inference-Time-Compute, ITC) 방법은 고품질이면서도 다양한 출력 후보를 생성하기 위한 것이지만, 높은 온도 샘플링을 사용함으로써 의미 있는 출력 다양성을 달성하는 데 종종 실패합니다. 더욱이 기존 ITC 방법은 추론을 수행하는 방식에 대한 제어가 제한적이어서 설명 가능성도 제한됩니다. 본 논문에서는 높은 수준의 추론 패턴을 탐색하는 해석 가능한 ITC 방법인 STATe-of-Thoughts(STATe)를 제시합니다. STATe는 확률적 샘플링을 이산적이고 해석 가능한 텍스트적 개입으로 대체합니다. 즉, 컨트롤러는 높은 수준의 추론 선택을 인코딩하는 액션을 선택하고, 생성기는 그 선택에 조건부된 추론 단계를 생성하며, 평가자는 탐색을 안내하기 위해 후보들을 채점합니다. 이러한 구조화된 접근 방식은 세 가지 주요 이점을 제공합니다. 첫째, 액션 기반 텍스트 개입은 온도 기반 샘플링보다 더 큰 응답 다양성을 생성합니다. 둘째, 논증 생성에 대한 사례 연구에서 STATe의 명시적 액션 시퀀스는 출력 품질을 매우 잘 예측하는 해석 가능한 특징들을 포착합니다. 셋째, 성능과 액션 선택 간의 연관성을 추정함으로써 유망하지만 아직 탐색되지 않은 액션 공간 영역을 식별하고 생성 과정을 해당 영역으로 직접 조종할 수 있습니다. 이러한 결과를 종합하면 STATe는 고품질이고 다양하며 해석 가능한 텍스트를 생성하기 위한 실용적인 프레임워크로 자리매김합니다. 우리의 프레임워크는 https://github.com/zbambergerNLP/state-of-thoughts에서 이용 가능합니다.
English
Inference-Time-Compute (ITC) methods like Best-of-N and Tree-of-Thoughts are meant to produce output candidates that are both high-quality and diverse, but their use of high-temperature sampling often fails to achieve meaningful output diversity. Moreover, existing ITC methods offer limited control over how to perform reasoning, which in turn limits their explainability. We present STATe-of-Thoughts (STATe), an interpretable ITC method that searches over high-level reasoning patterns. STATe replaces stochastic sampling with discrete and interpretable textual interventions: a controller selects actions encoding high-level reasoning choices, a generator produces reasoning steps conditioned on those choices, and an evaluator scores candidates to guide search. This structured approach yields three main advantages. First, action-guided textual interventions produce greater response diversity than temperature-based sampling. Second, in a case study on argument generation, STATe's explicit action sequences capture interpretable features that are highly predictive of output quality. Third, estimating the association between performance and action choices allows us to identify promising yet unexplored regions of the action space and steer generation directly toward them. Together, these results establish STATe as a practical framework for generating high-quality, diverse, and interpretable text. Our framework is available at https://github.com/zbambergerNLP/state-of-thoughts.