STATe-of-Thoughts: Структурированные шаблоны действий для Древа мыслей

Аннотация

Методы вычислений во время вывода (ITC), такие как Best-of-N и Tree-of-Thoughts, предназначены для генерации кандидатов на выходе, которые являются одновременно высококачественными и разнообразными, однако их использование сэмплирования с высокой температурой часто не позволяет достичь значимого разнообразия результатов. Более того, существующие ITC-методы предлагают ограниченный контроль над процессом рассуждений, что, в свою очередь, ограничивает их объяснимость. Мы представляем STATe-of-Thoughts (STATe) — интерпретируемый ITC-метод, осуществляющий поиск по высокоуровневым шаблонам рассуждений. STATe заменяет стохастическое сэмплирование дискретными и интерпретируемыми текстовыми интервенциями: контроллер выбирает действия, кодирующие высокоуровневые варианты рассуждений, генератор производит шаги рассуждений, обусловленные этими выборами, а оценщик присваивает кандидатам баллы для направления поиска. Такой структурированный подход дает три основных преимущества. Во-первых, текстовые интервенции, управляемые действиями, обеспечивают большее разнообразие ответов по сравнению с температурным сэмплированием. Во-вторых, в случае исследования по генерации аргументов явные последовательности действий STATe фиксируют интерпретируемые признаки, которые обладают высокой предсказательной способностью относительно качества выходных данных. В-третьих, оценка взаимосвязи между производительностью и выбором действий позволяет нам выявлять перспективные, но неисследованные области пространства действий и напрямую направлять генерацию в их сторону. В совокупности эти результаты устанавливают STATe в качестве практического фреймворка для генерации высококачественного, разнообразного и интерпретируемого текста. Наш фреймворк доступен по адресу https://github.com/zbambergerNLP/state-of-thoughts.

English

Inference-Time-Compute (ITC) methods like Best-of-N and Tree-of-Thoughts are meant to produce output candidates that are both high-quality and diverse, but their use of high-temperature sampling often fails to achieve meaningful output diversity. Moreover, existing ITC methods offer limited control over how to perform reasoning, which in turn limits their explainability. We present STATe-of-Thoughts (STATe), an interpretable ITC method that searches over high-level reasoning patterns. STATe replaces stochastic sampling with discrete and interpretable textual interventions: a controller selects actions encoding high-level reasoning choices, a generator produces reasoning steps conditioned on those choices, and an evaluator scores candidates to guide search. This structured approach yields three main advantages. First, action-guided textual interventions produce greater response diversity than temperature-based sampling. Second, in a case study on argument generation, STATe's explicit action sequences capture interpretable features that are highly predictive of output quality. Third, estimating the association between performance and action choices allows us to identify promising yet unexplored regions of the action space and steer generation directly toward them. Together, these results establish STATe as a practical framework for generating high-quality, diverse, and interpretable text. Our framework is available at https://github.com/zbambergerNLP/state-of-thoughts.

STATe-of-Thoughts: Структурированные шаблоны действий для Древа мыслей

STATe-of-Thoughts: Structured Action Templates for Tree-of-Thoughts

Аннотация

Support