Collegare il Ragionamento all'Apprendimento: Smascherare le Illusioni attraverso la Generalizzazione della Complessità Fuori Distribuzione
Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization
October 6, 2025
Autori: Mohammad Mahdi Samiei Paqaleh, Arash Marioriyad, Arman Tahmasebi-Zadeh, Mohamadreza Fereydooni, Mahdi Ghaznavai, Mahdieh Soleymani Baghshah
cs.AI
Abstract
I recenti progressi hanno spinto le frontiere dell'IA dai compiti di riconoscimento di pattern verso problemi che richiedono un ragionamento passo dopo passo, di tipo System2, specialmente con i grandi modelli linguistici. Tuttavia, a differenza dell'apprendimento, dove i concetti di generalizzazione e valutazione fuori distribuzione (OoD) sono ben formalizzati, non esiste una definizione o metrica chiara e coerente per la capacità di ragionamento. Proponiamo la generalizzazione fuori distribuzione di complessità (Complexity OoD) come quadro e impostazione del problema per definire e misurare il ragionamento. Un modello mostra generalizzazione Complexity OoD quando mantiene le prestazioni su istanze di test la cui complessità minima richiesta per la soluzione, sia rappresentazionale (struttura della soluzione più ricca) che computazionale (più passi di ragionamento/lunghezza del programma), supera quella di tutti gli esempi di addestramento. Formalizziamo la complessità attraverso la complessità di Kolmogorov della descrizione della soluzione e proxy operativi (ad esempio, conteggi di oggetti/relazioni; conteggi di passi di ragionamento), chiarendo come Complexity OoD differisca dalla lunghezza e dalla composizione OoD. Questa lente unifica apprendimento e ragionamento: molti casi risolvibili con un'elaborazione di tipo System1 a bassa complessità diventano di tipo System2 sotto pressione di complessità, mentre System2 può essere visto come una generalizzazione sulle strutture delle soluzioni. Traduciamo questa prospettiva in pratica con raccomandazioni per operazionalizzare Complexity OoD in tutta la pila: incorporare la complessità nella progettazione di benchmark e metriche di valutazione, ripensare la supervisione per indirizzare le tracce delle soluzioni, cercare e progettare bias induttivi per la generalizzazione Complexity OoD, affrontare gli effetti collaterali dell'apprendimento del ragionamento come scorciatoie spurie, robustezza semantica, dimenticanza catastrofica e calibrazione passo-passo. Poiché Complexity OoD non può essere risolta semplicemente aumentando i dati, il progresso verso un ragionamento robusto richiederà architetture e regimi di addestramento che modellino e allocino esplicitamente il calcolo rispetto alla complessità.
English
Recent progress has pushed AI frontiers from pattern recognition tasks toward
problems that require step by step, System2 style reasoning, especially with
large language models. Yet, unlike learning, where generalization and out of
distribution (OoD) evaluation concepts are well formalized, there is no clear,
consistent definition or metric for reasoning ability. We propose Complexity
Out of Distribution (Complexity OoD) generalization as a framework and problem
setting to define and measure reasoning. A model exhibits Complexity OoD
generalization when it maintains performance on test instances whose minimal
required solution complexity, either representational (richer solution
structure) or computational (more reasoning steps/program length), exceeds that
of all training examples. We formalize complexity via solution description
Kolmogorov complexity and operational proxies (e.g., object/relation counts;
reasoning step counts), clarifying how Complexity OoD differs from length and
compositional OoD. This lens unifies learning and reasoning: many cases
solvable with System1 like processing at low complexity become System2 like
under complexity pressure, while System2 can be viewed as generalization over
solution structures. We translate this perspective into practice with
recommendations for operationalizing Complexity OoD across the stack:
incorporating complexity into benchmark and evaluation metric design,
rethinking supervision to target solution traces, seeking and designing
inductive biases for Complexity OoD generalization, addressing learning to
reason spillovers such as spurious shortcuts, semantic robustness, catastrophic
forgetting, and step wise calibration. Because Complexity OoD cannot be solved
by scaling data alone, progress toward robust reasoning will require
architectures and training regimes that explicitly model and allocate
computation with respect to complexity.