L'Enciclopedia CoT: Analizzare, Prevedere e Controllare il Modo in cui un Modello di Ragionamento Penserà
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think
May 15, 2025
Autori: Seongyun Lee, Seungone Kim, Minju Seo, Yongrae Jo, Dongyoung Go, Hyeonbin Hwang, Jinho Park, Xiang Yue, Sean Welleck, Graham Neubig, Moontae Lee, Minjoon Seo
cs.AI
Abstract
La catena di ragionamento (CoT) è un elemento essenziale per un utilizzo efficace dei moderni modelli linguistici di grandi dimensioni, ma la nostra comprensione delle strategie di ragionamento alla base di queste capacità rimane limitata. Sebbene alcuni lavori precedenti abbiano tentato di categorizzare le CoT utilizzando tipi di strategie predefiniti, tali approcci sono vincolati dall'intuizione umana e non riescono a cogliere la piena diversità dei comportamenti del modello. In questo lavoro, introduciamo l'Enciclopedia delle CoT, un framework bottom-up per analizzare e orientare il ragionamento del modello. Il nostro metodo estrae automaticamente criteri di ragionamento diversificati dalle CoT generate dal modello, li incorpora in uno spazio semantico, li raggruppa in categorie rappresentative e deriva rubriche contrastive per interpretare il comportamento di ragionamento. Le valutazioni umane dimostrano che questo framework produce analisi più interpretabili e complete rispetto ai metodi esistenti. Inoltre, dimostriamo che questa comprensione consente miglioramenti delle prestazioni: possiamo prevedere quale strategia è probabile che un modello utilizzi e guidarlo verso alternative più efficaci. Infine, forniamo intuizioni pratiche, come il fatto che il formato dei dati di addestramento (ad esempio, libero rispetto a scelta multipla) ha un impatto molto maggiore sul comportamento di ragionamento rispetto al dominio dei dati, sottolineando l'importanza di un design del modello consapevole del formato.
English
Long chain-of-thought (CoT) is an essential ingredient in effective usage of
modern large language models, but our understanding of the reasoning strategies
underlying these capabilities remains limited. While some prior works have
attempted to categorize CoTs using predefined strategy types, such approaches
are constrained by human intuition and fail to capture the full diversity of
model behaviors. In this work, we introduce the CoT Encyclopedia, a bottom-up
framework for analyzing and steering model reasoning. Our method automatically
extracts diverse reasoning criteria from model-generated CoTs, embeds them into
a semantic space, clusters them into representative categories, and derives
contrastive rubrics to interpret reasoning behavior. Human evaluations show
that this framework produces more interpretable and comprehensive analyses than
existing methods. Moreover, we demonstrate that this understanding enables
performance gains: we can predict which strategy a model is likely to use and
guide it toward more effective alternatives. Finally, we provide practical
insights, such as that training data format (e.g., free-form vs.
multiple-choice) has a far greater impact on reasoning behavior than data
domain, underscoring the importance of format-aware model design.