STATe-of-Thoughts: Modelli di Azione Strutturati per l'Albero dei Pensieri

Abstract

I metodi di Inferenza-Time-Compute (ITC) come Best-of-N e Tree-of-Thoughts sono concepiti per produrre candidati di output che siano sia di alta qualità che diversificati, ma il loro utilizzo del campionamento ad alta temperatura spesso non riesce a raggiungere una diversità di output significativa. Inoltre, i metodi ITC esistenti offrono un controllo limitato su come eseguire il ragionamento, il che a sua volta ne limita la spiegabilità. Presentiamo STATe-of-Thoughts (STATe), un metodo ITC interpretabile che effettua una ricerca su pattern di ragionamento di alto livello. STATe sostituisce il campionamento stocastico con interventi testuali discreti e interpretabili: un controllore seleziona azioni che codificano scelte di ragionamento di alto livello, un generatore produce passaggi di ragionamento condizionati da tali scelte, e un valutatore assegna un punteggio ai candidati per guidare la ricerca. Questo approccio strutturato offre tre vantaggi principali. In primo luogo, gli interventi testuali guidati da azioni producono una maggiore diversità delle risposte rispetto al campionamento basato sulla temperatura. In secondo luogo, in uno studio di caso sulla generazione di argomentazioni, le sequenze di azioni esplicite di STATe catturano caratteristiche interpretabili che sono altamente predittive della qualità dell'output. In terzo luogo, stimare l'associazione tra prestazioni e scelte di azione ci permette di identificare regioni promettenti ma inesplorate dello spazio delle azioni e indirizzare direttamente la generazione verso di esse. Nel complesso, questi risultati stabiliscono STATe come un quadro pratico per generare testo di alta qualità, diversificato e interpretabile. Il nostro framework è disponibile all'indirizzo https://github.com/zbambergerNLP/state-of-thoughts.

English

Inference-Time-Compute (ITC) methods like Best-of-N and Tree-of-Thoughts are meant to produce output candidates that are both high-quality and diverse, but their use of high-temperature sampling often fails to achieve meaningful output diversity. Moreover, existing ITC methods offer limited control over how to perform reasoning, which in turn limits their explainability. We present STATe-of-Thoughts (STATe), an interpretable ITC method that searches over high-level reasoning patterns. STATe replaces stochastic sampling with discrete and interpretable textual interventions: a controller selects actions encoding high-level reasoning choices, a generator produces reasoning steps conditioned on those choices, and an evaluator scores candidates to guide search. This structured approach yields three main advantages. First, action-guided textual interventions produce greater response diversity than temperature-based sampling. Second, in a case study on argument generation, STATe's explicit action sequences capture interpretable features that are highly predictive of output quality. Third, estimating the association between performance and action choices allows us to identify promising yet unexplored regions of the action space and steer generation directly toward them. Together, these results establish STATe as a practical framework for generating high-quality, diverse, and interpretable text. Our framework is available at https://github.com/zbambergerNLP/state-of-thoughts.

STATe-of-Thoughts: Modelli di Azione Strutturati per l'Albero dei Pensieri

STATe-of-Thoughts: Structured Action Templates for Tree-of-Thoughts

Abstract

Support