Мыслительные якоря: Какие шаги рассуждений в больших языковых моделях имеют значение?
Thought Anchors: Which LLM Reasoning Steps Matter?
June 23, 2025
Авторы: Paul C. Bogdan, Uzay Macar, Neel Nanda, Arthur Conmy
cs.AI
Аннотация
Крупные языковые модели, способные к рассуждениям, недавно достигли наилучших результатов во многих областях. Однако их длинные цепочки рассуждений создают проблемы с интерпретируемостью, поскольку каждый сгенерированный токен зависит от всех предыдущих, что затрудняет декомпозицию вычислений. Мы утверждаем, что анализ траекторий рассуждений на уровне предложений является перспективным подходом для понимания процессов рассуждений. Мы представляем три взаимодополняющих метода атрибуции: (1) черный ящик, измеряющий контрфактическую важность каждого предложения путем сравнения итоговых ответов в 100 прогонах, где модель генерирует это предложение или предложение с другим значением; (2) белый ящик, агрегирующий паттерны внимания между парами предложений, который выявил «вещающие» предложения, получающие непропорционально большое внимание от всех последующих предложений через «принимающие» головы внимания; (3) метод причинной атрибуции, измеряющий логические связи между предложениями путем подавления внимания к одному предложению и оценки влияния на токены каждого последующего предложения. Каждый метод предоставляет доказательства существования «якорей мыслей» — шагов рассуждений, которые имеют чрезвычайную важность и непропорционально влияют на последующий процесс рассуждений. Эти якоря мыслей обычно представляют собой предложения, связанные с планированием или возвратом. Мы предоставляем инструмент с открытым исходным кодом (www.thought-anchors.com) для визуализации результатов наших методов и представляем кейс-стади, показывающий сходящиеся паттерны между методами, которые отображают, как модель выполняет многошаговые рассуждения. Согласованность между методами демонстрирует потенциал анализа на уровне предложений для более глубокого понимания моделей рассуждений.
English
Reasoning large language models have recently achieved state-of-the-art
performance in many fields. However, their long-form chain-of-thought reasoning
creates interpretability challenges as each generated token depends on all
previous ones, making the computation harder to decompose. We argue that
analyzing reasoning traces at the sentence level is a promising approach to
understanding reasoning processes. We present three complementary attribution
methods: (1) a black-box method measuring each sentence's counterfactual
importance by comparing final answers across 100 rollouts conditioned on the
model generating that sentence or one with a different meaning; (2) a white-box
method of aggregating attention patterns between pairs of sentences, which
identified ``broadcasting'' sentences that receive disproportionate attention
from all future sentences via ``receiver'' attention heads; (3) a causal
attribution method measuring logical connections between sentences by
suppressing attention toward one sentence and measuring the effect on each
future sentence's tokens. Each method provides evidence for the existence of
thought anchors, reasoning steps that have outsized importance and that
disproportionately influence the subsequent reasoning process. These thought
anchors are typically planning or backtracking sentences. We provide an
open-source tool (www.thought-anchors.com) for visualizing the outputs of our
methods, and present a case study showing converging patterns across methods
that map how a model performs multi-step reasoning. The consistency across
methods demonstrates the potential of sentence-level analysis for a deeper
understanding of reasoning models.