Мыслительные якоря: Какие шаги рассуждений в больших языковых моделях имеют значение?

Аннотация

Крупные языковые модели, способные к рассуждениям, недавно достигли наилучших результатов во многих областях. Однако их длинные цепочки рассуждений создают проблемы с интерпретируемостью, поскольку каждый сгенерированный токен зависит от всех предыдущих, что затрудняет декомпозицию вычислений. Мы утверждаем, что анализ траекторий рассуждений на уровне предложений является перспективным подходом для понимания процессов рассуждений. Мы представляем три взаимодополняющих метода атрибуции: (1) черный ящик, измеряющий контрфактическую важность каждого предложения путем сравнения итоговых ответов в 100 прогонах, где модель генерирует это предложение или предложение с другим значением; (2) белый ящик, агрегирующий паттерны внимания между парами предложений, который выявил «вещающие» предложения, получающие непропорционально большое внимание от всех последующих предложений через «принимающие» головы внимания; (3) метод причинной атрибуции, измеряющий логические связи между предложениями путем подавления внимания к одному предложению и оценки влияния на токены каждого последующего предложения. Каждый метод предоставляет доказательства существования «якорей мыслей» — шагов рассуждений, которые имеют чрезвычайную важность и непропорционально влияют на последующий процесс рассуждений. Эти якоря мыслей обычно представляют собой предложения, связанные с планированием или возвратом. Мы предоставляем инструмент с открытым исходным кодом (www.thought-anchors.com) для визуализации результатов наших методов и представляем кейс-стади, показывающий сходящиеся паттерны между методами, которые отображают, как модель выполняет многошаговые рассуждения. Согласованность между методами демонстрирует потенциал анализа на уровне предложений для более глубокого понимания моделей рассуждений.

English

Reasoning large language models have recently achieved state-of-the-art performance in many fields. However, their long-form chain-of-thought reasoning creates interpretability challenges as each generated token depends on all previous ones, making the computation harder to decompose. We argue that analyzing reasoning traces at the sentence level is a promising approach to understanding reasoning processes. We present three complementary attribution methods: (1) a black-box method measuring each sentence's counterfactual importance by comparing final answers across 100 rollouts conditioned on the model generating that sentence or one with a different meaning; (2) a white-box method of aggregating attention patterns between pairs of sentences, which identified ``broadcasting'' sentences that receive disproportionate attention from all future sentences via ``receiver'' attention heads; (3) a causal attribution method measuring logical connections between sentences by suppressing attention toward one sentence and measuring the effect on each future sentence's tokens. Each method provides evidence for the existence of thought anchors, reasoning steps that have outsized importance and that disproportionately influence the subsequent reasoning process. These thought anchors are typically planning or backtracking sentences. We provide an open-source tool (www.thought-anchors.com) for visualizing the outputs of our methods, and present a case study showing converging patterns across methods that map how a model performs multi-step reasoning. The consistency across methods demonstrates the potential of sentence-level analysis for a deeper understanding of reasoning models.

Мыслительные якоря: Какие шаги рассуждений в больших языковых моделях имеют значение?

Thought Anchors: Which LLM Reasoning Steps Matter?

Аннотация

Support