L'Enciclopedia CoT: Analizzare, Prevedere e Controllare il Modo in cui un Modello di Ragionamento Penserà

Abstract

La catena di ragionamento (CoT) è un elemento essenziale per un utilizzo efficace dei moderni modelli linguistici di grandi dimensioni, ma la nostra comprensione delle strategie di ragionamento alla base di queste capacità rimane limitata. Sebbene alcuni lavori precedenti abbiano tentato di categorizzare le CoT utilizzando tipi di strategie predefiniti, tali approcci sono vincolati dall'intuizione umana e non riescono a cogliere la piena diversità dei comportamenti del modello. In questo lavoro, introduciamo l'Enciclopedia delle CoT, un framework bottom-up per analizzare e orientare il ragionamento del modello. Il nostro metodo estrae automaticamente criteri di ragionamento diversificati dalle CoT generate dal modello, li incorpora in uno spazio semantico, li raggruppa in categorie rappresentative e deriva rubriche contrastive per interpretare il comportamento di ragionamento. Le valutazioni umane dimostrano che questo framework produce analisi più interpretabili e complete rispetto ai metodi esistenti. Inoltre, dimostriamo che questa comprensione consente miglioramenti delle prestazioni: possiamo prevedere quale strategia è probabile che un modello utilizzi e guidarlo verso alternative più efficaci. Infine, forniamo intuizioni pratiche, come il fatto che il formato dei dati di addestramento (ad esempio, libero rispetto a scelta multipla) ha un impatto molto maggiore sul comportamento di ragionamento rispetto al dominio dei dati, sottolineando l'importanza di un design del modello consapevole del formato.

English

Long chain-of-thought (CoT) is an essential ingredient in effective usage of modern large language models, but our understanding of the reasoning strategies underlying these capabilities remains limited. While some prior works have attempted to categorize CoTs using predefined strategy types, such approaches are constrained by human intuition and fail to capture the full diversity of model behaviors. In this work, we introduce the CoT Encyclopedia, a bottom-up framework for analyzing and steering model reasoning. Our method automatically extracts diverse reasoning criteria from model-generated CoTs, embeds them into a semantic space, clusters them into representative categories, and derives contrastive rubrics to interpret reasoning behavior. Human evaluations show that this framework produces more interpretable and comprehensive analyses than existing methods. Moreover, we demonstrate that this understanding enables performance gains: we can predict which strategy a model is likely to use and guide it toward more effective alternatives. Finally, we provide practical insights, such as that training data format (e.g., free-form vs. multiple-choice) has a far greater impact on reasoning behavior than data domain, underscoring the importance of format-aware model design.

L'Enciclopedia CoT: Analizzare, Prevedere e Controllare il Modo in cui un Modello di Ragionamento Penserà

The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think

Abstract

Support