Comportamentos Fantásticos de Raciocínio e Onde Encontrá-los: Descoberta Não Supervisionada do Processo de Raciocínio

Resumo

Apesar das crescentes capacidades de raciocínio dos modelos de linguagem grandes (LLMs) recentes, os seus mecanismos internos durante o processo de raciocínio permanecem pouco explorados. As abordagens anteriores frequentemente dependem de conceitos definidos por humanos (por exemplo, *overthinking*, reflexão) ao nível da palavra para analisar o raciocínio de uma forma supervisionada. No entanto, tais métodos são limitados, pois é inviável capturar todo o espectro de comportamentos de raciocínio potenciais, muitos dos quais são difíceis de definir no espaço de *tokens*. Neste trabalho, propomos uma estrutura não supervisionada (designada RISE: *Reasoning behavior Interpretability via Sparse auto-Encoder*) para descobrir vetores de raciocínio, que definimos como direções no espaço de ativação que codificam comportamentos de raciocínio distintos. Ao segmentar os rastros de *chain-of-thought* em 'passos' ao nível da frase e treinar autoencoders esparsos (SAEs) nas ativações ao nível do passo, descobrimos características desembaraçadas correspondentes a comportamentos interpretáveis, como reflexão e retrocesso. Análises de visualização e agrupamento mostram que estes comportamentos ocupam regiões separáveis no espaço coluna do decodificador. Além disso, intervenções direcionadas nos vetores derivados do SAE podem amplificar ou suprimir de forma controlável comportamentos de raciocínio específicos, alterando as trajetórias de inferência sem necessidade de retreino. Para além do desembaraçamento específico do comportamento, os SAEs capturam propriedades estruturais, como o comprimento da resposta, revelando aglomerados de rastros de raciocínio longos versus curtos. Mais interessante ainda, os SAEs permitem a descoberta de novos comportamentos para além da supervisão humana. Demonstramos a capacidade de controlar a confiança da resposta através da identificação de vetores relacionados com a confiança no espaço do decodificador do SAE. Estas descobertas sublinham o potencial da descoberta latente não supervisionada tanto para interpretar como para orientar de forma controlável o raciocínio em LLMs.

English

Despite the growing reasoning capabilities of recent large language models (LLMs), their internal mechanisms during the reasoning process remain underexplored. Prior approaches often rely on human-defined concepts (e.g., overthinking, reflection) at the word level to analyze reasoning in a supervised manner. However, such methods are limited, as it is infeasible to capture the full spectrum of potential reasoning behaviors, many of which are difficult to define in token space. In this work, we propose an unsupervised framework (namely, RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) for discovering reasoning vectors, which we define as directions in the activation space that encode distinct reasoning behaviors. By segmenting chain-of-thought traces into sentence-level 'steps' and training sparse auto-encoders (SAEs) on step-level activations, we uncover disentangled features corresponding to interpretable behaviors such as reflection and backtracking. Visualization and clustering analyses show that these behaviors occupy separable regions in the decoder column space. Moreover, targeted interventions on SAE-derived vectors can controllably amplify or suppress specific reasoning behaviors, altering inference trajectories without retraining. Beyond behavior-specific disentanglement, SAEs capture structural properties such as response length, revealing clusters of long versus short reasoning traces. More interestingly, SAEs enable the discovery of novel behaviors beyond human supervision. We demonstrate the ability to control response confidence by identifying confidence-related vectors in the SAE decoder space. These findings underscore the potential of unsupervised latent discovery for both interpreting and controllably steering reasoning in LLMs.

Comportamentos Fantásticos de Raciocínio e Onde Encontrá-los: Descoberta Não Supervisionada do Processo de Raciocínio

Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

Resumo

Support