Die CoT-Enzyklopädie: Analyse, Vorhersage und Steuerung des Denkens eines Argumentationsmodells
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think
May 15, 2025
Autoren: Seongyun Lee, Seungone Kim, Minju Seo, Yongrae Jo, Dongyoung Go, Hyeonbin Hwang, Jinho Park, Xiang Yue, Sean Welleck, Graham Neubig, Moontae Lee, Minjoon Seo
cs.AI
Zusammenfassung
Lange Gedankenketten (Chain-of-Thought, CoT) sind ein wesentlicher Bestandteil für die effektive Nutzung moderner großer Sprachmodelle, doch unser Verständnis der zugrunde liegenden Denkstrategien bleibt begrenzt. Während einige frühere Arbeiten versucht haben, CoTs anhand vordefinierter Strategietypen zu kategorisieren, sind solche Ansätze durch menschliche Intuition eingeschränkt und erfassen nicht die gesamte Vielfalt des Modellverhaltens. In dieser Arbeit stellen wir die CoT-Enzyklopädie vor, ein Bottom-up-Framework zur Analyse und Steuerung von Modellschlussfolgerungen. Unsere Methode extrahiert automatisch diverse Denkkriterien aus modellgenerierten CoTs, bettet sie in einen semantischen Raum ein, gruppiert sie in repräsentative Kategorien und leitet kontrastive Bewertungskriterien ab, um das Denkverhalten zu interpretieren. Menschliche Bewertungen zeigen, dass dieses Framework interpretierbarere und umfassendere Analysen liefert als bestehende Methoden. Darüber hinaus demonstrieren wir, dass dieses Verständnis Leistungssteigerungen ermöglicht: Wir können vorhersagen, welche Strategie ein Modell wahrscheinlich verwenden wird, und es zu effektiveren Alternativen lenken. Schließlich liefern wir praktische Erkenntnisse, wie beispielsweise, dass das Format der Trainingsdaten (z. B. freier Text vs. Multiple-Choice) einen weitaus größeren Einfluss auf das Denkverhalten hat als die Datenquelle, was die Bedeutung eines formatbewussten Modellentwurfs unterstreicht.
English
Long chain-of-thought (CoT) is an essential ingredient in effective usage of
modern large language models, but our understanding of the reasoning strategies
underlying these capabilities remains limited. While some prior works have
attempted to categorize CoTs using predefined strategy types, such approaches
are constrained by human intuition and fail to capture the full diversity of
model behaviors. In this work, we introduce the CoT Encyclopedia, a bottom-up
framework for analyzing and steering model reasoning. Our method automatically
extracts diverse reasoning criteria from model-generated CoTs, embeds them into
a semantic space, clusters them into representative categories, and derives
contrastive rubrics to interpret reasoning behavior. Human evaluations show
that this framework produces more interpretable and comprehensive analyses than
existing methods. Moreover, we demonstrate that this understanding enables
performance gains: we can predict which strategy a model is likely to use and
guide it toward more effective alternatives. Finally, we provide practical
insights, such as that training data format (e.g., free-form vs.
multiple-choice) has a far greater impact on reasoning behavior than data
domain, underscoring the importance of format-aware model design.Summary
AI-Generated Summary