Anclas de Pensamiento: ¿Qué Pasos de Razonamiento en los LLM Importan?
Thought Anchors: Which LLM Reasoning Steps Matter?
June 23, 2025
Autores: Paul C. Bogdan, Uzay Macar, Neel Nanda, Arthur Conmy
cs.AI
Resumen
Los modelos de lenguaje de razonamiento a gran escala han alcanzado recientemente un rendimiento de vanguardia en muchos campos. Sin embargo, su razonamiento en cadena de pensamiento de larga duración plantea desafíos de interpretabilidad, ya que cada token generado depende de todos los anteriores, lo que dificulta la descomposición del cálculo. Argumentamos que analizar trazas de razonamiento a nivel de oración es un enfoque prometedor para comprender los procesos de razonamiento. Presentamos tres métodos complementarios de atribución: (1) un método de caja negra que mide la importancia contrafactual de cada oración comparando respuestas finales en 100 ejecuciones condicionadas a que el modelo genere esa oración o una con un significado diferente; (2) un método de caja blanca que agrega patrones de atención entre pares de oraciones, identificando oraciones de "difusión" que reciben una atención desproporcionada de todas las oraciones futuras a través de cabezas de atención "receptoras"; (3) un método de atribución causal que mide las conexiones lógicas entre oraciones al suprimir la atención hacia una oración y medir el efecto en los tokens de cada oración futura. Cada método proporciona evidencia de la existencia de anclajes de pensamiento, pasos de razonamiento que tienen una importancia desproporcionada y que influyen de manera significativa en el proceso de razonamiento posterior. Estos anclajes de pensamiento suelen ser oraciones de planificación o retroceso. Ofrecemos una herramienta de código abierto (www.thought-anchors.com) para visualizar los resultados de nuestros métodos y presentamos un estudio de caso que muestra patrones convergentes entre métodos que mapean cómo un modelo realiza un razonamiento de múltiples pasos. La consistencia entre los métodos demuestra el potencial del análisis a nivel de oración para una comprensión más profunda de los modelos de razonamiento.
English
Reasoning large language models have recently achieved state-of-the-art
performance in many fields. However, their long-form chain-of-thought reasoning
creates interpretability challenges as each generated token depends on all
previous ones, making the computation harder to decompose. We argue that
analyzing reasoning traces at the sentence level is a promising approach to
understanding reasoning processes. We present three complementary attribution
methods: (1) a black-box method measuring each sentence's counterfactual
importance by comparing final answers across 100 rollouts conditioned on the
model generating that sentence or one with a different meaning; (2) a white-box
method of aggregating attention patterns between pairs of sentences, which
identified ``broadcasting'' sentences that receive disproportionate attention
from all future sentences via ``receiver'' attention heads; (3) a causal
attribution method measuring logical connections between sentences by
suppressing attention toward one sentence and measuring the effect on each
future sentence's tokens. Each method provides evidence for the existence of
thought anchors, reasoning steps that have outsized importance and that
disproportionately influence the subsequent reasoning process. These thought
anchors are typically planning or backtracking sentences. We provide an
open-source tool (www.thought-anchors.com) for visualizing the outputs of our
methods, and present a case study showing converging patterns across methods
that map how a model performs multi-step reasoning. The consistency across
methods demonstrates the potential of sentence-level analysis for a deeper
understanding of reasoning models.