ChatPaper.aiChatPaper

Comportamientos de razonamiento fantásticos y dónde encontrarlos: descubrimiento no supervisado del proceso de razonamiento

Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

December 30, 2025
Autores: Zhenyu Zhang, Shujian Zhang, John Lambert, Wenxuan Zhou, Zhangyang Wang, Mingqing Chen, Andrew Hard, Rajiv Mathews, Lun Wang
cs.AI

Resumen

A pesar de las crecientes capacidades de razonamiento de los modelos de lenguaje grandes (LLM) recientes, sus mecanismos internos durante el proceso de razonamiento siguen sin estar suficientemente explorados. Los enfoques previos a menudo se basan en conceptos definidos por humanos (por ejemplo, sobrepensar, reflexión) a nivel de palabra para analizar el razonamiento de manera supervisada. Sin embargo, estos métodos son limitados, ya que es inviable capturar todo el espectro de comportamientos de razonamiento potenciales, muchos de los cuales son difíciles de definir en el espacio de tokens. En este trabajo, proponemos un marco no supervisado (denominado RISE: Interpretabilidad del Comportamiento de Razonamiento mediante Autoencoder Disperso) para descubrir vectores de razonamiento, que definimos como direcciones en el espacio de activación que codifican comportamientos de razonamiento distintos. Al segmentar las trazas de cadena de pensamiento en 'pasos' a nivel de oración y entrenar autoencoders dispersos (SAE) en las activaciones a nivel de paso, descubrimos características desenredadas que corresponden a comportamientos interpretables como la reflexión y la retrocesión. Los análisis de visualización y agrupamiento muestran que estos comportamientos ocupan regiones separables en el espacio de columnas del decodificador. Además, las intervenciones dirigidas sobre los vectores derivados del SAE pueden amplificar o suprimir de forma controlable comportamientos de razonamiento específicos, alterando las trayectorias de inferencia sin necesidad de reentrenamiento. Más allá del desenredado específico del comportamiento, los SAE capturan propiedades estructurales como la longitud de la respuesta, revelando grupos de trazas de razonamiento largas versus cortas. Más interesante aún, los SAE permiten el descubrimiento de nuevos comportamientos más allá de la supervisión humana. Demostramos la capacidad de controlar la confianza de la respuesta identificando vectores relacionados con la confianza en el espacio del decodificador del SAE. Estos hallazgos subrayan el potencial del descubrimiento latente no supervisado tanto para interpretar como para dirigir de manera controlable el razonamiento en los LLM.
English
Despite the growing reasoning capabilities of recent large language models (LLMs), their internal mechanisms during the reasoning process remain underexplored. Prior approaches often rely on human-defined concepts (e.g., overthinking, reflection) at the word level to analyze reasoning in a supervised manner. However, such methods are limited, as it is infeasible to capture the full spectrum of potential reasoning behaviors, many of which are difficult to define in token space. In this work, we propose an unsupervised framework (namely, RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) for discovering reasoning vectors, which we define as directions in the activation space that encode distinct reasoning behaviors. By segmenting chain-of-thought traces into sentence-level 'steps' and training sparse auto-encoders (SAEs) on step-level activations, we uncover disentangled features corresponding to interpretable behaviors such as reflection and backtracking. Visualization and clustering analyses show that these behaviors occupy separable regions in the decoder column space. Moreover, targeted interventions on SAE-derived vectors can controllably amplify or suppress specific reasoning behaviors, altering inference trajectories without retraining. Beyond behavior-specific disentanglement, SAEs capture structural properties such as response length, revealing clusters of long versus short reasoning traces. More interestingly, SAEs enable the discovery of novel behaviors beyond human supervision. We demonstrate the ability to control response confidence by identifying confidence-related vectors in the SAE decoder space. These findings underscore the potential of unsupervised latent discovery for both interpreting and controllably steering reasoning in LLMs.
PDF61January 2, 2026