Comportamenti di Ragionamento Straordinari e Dove Trovarli: Scoperta Non Supervisionata del Processo Ragionativo

Abstract

Nonostante le crescenti capacità di ragionamento dei recenti grandi modelli linguistici (LLM), i loro meccanismi interni durante il processo di ragionamento rimangono poco esplorati. Gli approcci precedenti spesso si basano su concetti definiti dall'uomo (ad esempio, sovrapensiero, riflessione) a livello di parola per analizzare il ragionamento in maniera supervisionata. Tuttavia, tali metodi sono limitati, poiché è impossibile catturare l'intero spettro dei potenziali comportamenti di ragionamento, molti dei quali sono difficili da definire nello spazio dei token. In questo lavoro, proponiamo un framework non supervisionato (denominato RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) per scoprire i vettori di ragionamento, che definiamo come direzioni nello spazio di attivazione che codificano comportamenti di ragionamento distinti. Segmentando le tracce di ragionamento a catena in "passi" a livello di frase e addestrando autoencoder sparsi (SAE) sulle attivazioni a livello di passo, scopriamo caratteristiche disaccoppiate corrispondenti a comportamenti interpretabili come la riflessione e il backtracking. Le analisi di visualizzazione e clustering mostrano che questi comportamenti occupano regioni separabili nello spazio delle colonne del decodificatore. Inoltre, interventi mirati sui vettori derivati dai SAE possono amplificare o sopprimere in modo controllabile specifici comportamenti di ragionamento, alterando le traiettorie di inferenza senza riaddestramento. Oltre al disaccoppiamento specifico per comportamento, i SAE catturano proprietà strutturali come la lunghezza della risposta, rivelando cluster di tracce di ragionamento lunghe rispetto a quelle corte. Ancora più interessante, i SAE consentono la scoperta di nuovi comportamenti al di là della supervisione umana. Dimostriamo la capacità di controllare la confidenza della risposta identificando vettori correlati alla confidenza nello spazio del decodificatore del SAE. Questi risultati sottolineano il potenziale della scoperta latente non supervisionata sia per interpretare che per guidare in modo controllabile il ragionamento negli LLM.

English

Despite the growing reasoning capabilities of recent large language models (LLMs), their internal mechanisms during the reasoning process remain underexplored. Prior approaches often rely on human-defined concepts (e.g., overthinking, reflection) at the word level to analyze reasoning in a supervised manner. However, such methods are limited, as it is infeasible to capture the full spectrum of potential reasoning behaviors, many of which are difficult to define in token space. In this work, we propose an unsupervised framework (namely, RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) for discovering reasoning vectors, which we define as directions in the activation space that encode distinct reasoning behaviors. By segmenting chain-of-thought traces into sentence-level 'steps' and training sparse auto-encoders (SAEs) on step-level activations, we uncover disentangled features corresponding to interpretable behaviors such as reflection and backtracking. Visualization and clustering analyses show that these behaviors occupy separable regions in the decoder column space. Moreover, targeted interventions on SAE-derived vectors can controllably amplify or suppress specific reasoning behaviors, altering inference trajectories without retraining. Beyond behavior-specific disentanglement, SAEs capture structural properties such as response length, revealing clusters of long versus short reasoning traces. More interestingly, SAEs enable the discovery of novel behaviors beyond human supervision. We demonstrate the ability to control response confidence by identifying confidence-related vectors in the SAE decoder space. These findings underscore the potential of unsupervised latent discovery for both interpreting and controllably steering reasoning in LLMs.

Comportamenti di Ragionamento Straordinari e Dove Trovarli: Scoperta Non Supervisionata del Processo Ragionativo

Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

Abstract

Support