STATe-of-Thoughts: Gestructureerde Actie-sjablonen voor Boom-van-Gedachten

Samenvatting

Inference-Time-Compute (ITC)-methoden zoals Best-of-N en Tree-of-Thoughts zijn bedoeld om uitvoerkandidaten te produceren die zowel van hoge kwaliteit als divers zijn, maar hun gebruik van high-temperature sampling slaagt er vaak niet in om zinvolle uitvoerdiversiteit te bereiken. Bovendien bieden bestaande ITC-methoden beperkte controle over hoe de redenering wordt uitgevoerd, wat op zijn beurt hun verklaarbaarheid beperkt. Wij presenteren STATe-of-Thoughts (STATe), een interpreteerbare ITC-methode die zoekt over hoog-niveau redeneerpatronen. STATe vervangt stochastische sampling door discrete en interpreteerbare tekstuele interventies: een controller selecteert acties die hoog-niveau redeneerkeuzes coderen, een generator produceert redeneerstappen geconditioneerd op die keuzes, en een evaluator scoort kandidaten om de zoektocht te sturen. Deze gestructureerde aanpak biedt drie hoofdvoordelen. Ten eerste produceren actie-gestuurde tekstuele interventies een grotere responsdiversiteit dan temperatuurgebaseerde sampling. Ten tweede leggen in een casestudy over argumentgeneratie de expliciete actievolgordes van STATe interpreteerbare kenmerken vast die zeer voorspellend zijn voor de uitvoerkwaliteit. Ten derde stelt het schatten van de associatie tussen prestaties en actiekeuzes ons in staat om veelbelovende maar onontgonnen regio's van de actieruimte te identificeren en de generatie er direct naartoe te sturen. Gezamenlijk vestigen deze resultaten STATe als een praktisch raamwerk voor het genereren van hoogwaardige, diverse en interpreteerbare tekst. Ons raamwerk is beschikbaar op https://github.com/zbambergerNLP/state-of-thoughts.

English

Inference-Time-Compute (ITC) methods like Best-of-N and Tree-of-Thoughts are meant to produce output candidates that are both high-quality and diverse, but their use of high-temperature sampling often fails to achieve meaningful output diversity. Moreover, existing ITC methods offer limited control over how to perform reasoning, which in turn limits their explainability. We present STATe-of-Thoughts (STATe), an interpretable ITC method that searches over high-level reasoning patterns. STATe replaces stochastic sampling with discrete and interpretable textual interventions: a controller selects actions encoding high-level reasoning choices, a generator produces reasoning steps conditioned on those choices, and an evaluator scores candidates to guide search. This structured approach yields three main advantages. First, action-guided textual interventions produce greater response diversity than temperature-based sampling. Second, in a case study on argument generation, STATe's explicit action sequences capture interpretable features that are highly predictive of output quality. Third, estimating the association between performance and action choices allows us to identify promising yet unexplored regions of the action space and steer generation directly toward them. Together, these results establish STATe as a practical framework for generating high-quality, diverse, and interpretable text. Our framework is available at https://github.com/zbambergerNLP/state-of-thoughts.

STATe-of-Thoughts: Gestructureerde Actie-sjablonen voor Boom-van-Gedachten

STATe-of-Thoughts: Structured Action Templates for Tree-of-Thoughts

Samenvatting

Support