Die CoT-Enzyklopädie: Analyse, Vorhersage und Steuerung des Denkens eines Argumentationsmodells

Zusammenfassung

Lange Gedankenketten (Chain-of-Thought, CoT) sind ein wesentlicher Bestandteil für die effektive Nutzung moderner großer Sprachmodelle, doch unser Verständnis der zugrunde liegenden Denkstrategien bleibt begrenzt. Während einige frühere Arbeiten versucht haben, CoTs anhand vordefinierter Strategietypen zu kategorisieren, sind solche Ansätze durch menschliche Intuition eingeschränkt und erfassen nicht die gesamte Vielfalt des Modellverhaltens. In dieser Arbeit stellen wir die CoT-Enzyklopädie vor, ein Bottom-up-Framework zur Analyse und Steuerung von Modellschlussfolgerungen. Unsere Methode extrahiert automatisch diverse Denkkriterien aus modellgenerierten CoTs, bettet sie in einen semantischen Raum ein, gruppiert sie in repräsentative Kategorien und leitet kontrastive Bewertungskriterien ab, um das Denkverhalten zu interpretieren. Menschliche Bewertungen zeigen, dass dieses Framework interpretierbarere und umfassendere Analysen liefert als bestehende Methoden. Darüber hinaus demonstrieren wir, dass dieses Verständnis Leistungssteigerungen ermöglicht: Wir können vorhersagen, welche Strategie ein Modell wahrscheinlich verwenden wird, und es zu effektiveren Alternativen lenken. Schließlich liefern wir praktische Erkenntnisse, wie beispielsweise, dass das Format der Trainingsdaten (z. B. freier Text vs. Multiple-Choice) einen weitaus größeren Einfluss auf das Denkverhalten hat als die Datenquelle, was die Bedeutung eines formatbewussten Modellentwurfs unterstreicht.

English

Long chain-of-thought (CoT) is an essential ingredient in effective usage of modern large language models, but our understanding of the reasoning strategies underlying these capabilities remains limited. While some prior works have attempted to categorize CoTs using predefined strategy types, such approaches are constrained by human intuition and fail to capture the full diversity of model behaviors. In this work, we introduce the CoT Encyclopedia, a bottom-up framework for analyzing and steering model reasoning. Our method automatically extracts diverse reasoning criteria from model-generated CoTs, embeds them into a semantic space, clusters them into representative categories, and derives contrastive rubrics to interpret reasoning behavior. Human evaluations show that this framework produces more interpretable and comprehensive analyses than existing methods. Moreover, we demonstrate that this understanding enables performance gains: we can predict which strategy a model is likely to use and guide it toward more effective alternatives. Finally, we provide practical insights, such as that training data format (e.g., free-form vs. multiple-choice) has a far greater impact on reasoning behavior than data domain, underscoring the importance of format-aware model design.

Die CoT-Enzyklopädie: Analyse, Vorhersage und Steuerung des Denkens eines Argumentationsmodells

The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think

Zusammenfassung

Support