Brug slaan tussen redeneren en leren: Illusies ontmaskeren met complexiteit buiten distributie generalisatie
Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization
October 6, 2025
Auteurs: Mohammad Mahdi Samiei Paqaleh, Arash Marioriyad, Arman Tahmasebi-Zadeh, Mohamadreza Fereydooni, Mahdi Ghaznavai, Mahdieh Soleymani Baghshah
cs.AI
Samenvatting
Recente vooruitgang heeft de grenzen van AI verschoven van patroonherkenningstaken naar problemen die stap-voor-stap, System2-achtig redeneren vereisen, vooral met grote taalmodellen. Toch is er, in tegenstelling tot leren, waar generalisatie en out-of-distribution (OoD)-evaluatieconcepten goed zijn geformaliseerd, geen duidelijke, consistente definitie of metriek voor redeneervermogen. Wij stellen Complexity Out of Distribution (Complexity OoD)-generalisatie voor als een raamwerk en probleemstelling om redeneren te definiëren en te meten. Een model vertoont Complexity OoD-generalisatie wanneer het prestaties behoudt op testgevallen waarvan de minimaal vereiste oplossingscomplexiteit, hetzij representatief (rijkere oplossingsstructuur) of computationeel (meer redeneerstappen/programmalengte), die van alle trainingsvoorbeelden overstijgt. We formaliseren complexiteit via de Kolmogorov-complexiteit van oplossingsbeschrijvingen en operationele proxies (bijv. object-/relatietellingen; redeneerstaptellingen), waarbij we verduidelijken hoe Complexity OoD verschilt van lengte- en compositionele OoD. Deze lens verenigt leren en redeneren: veel gevallen die oplosbaar zijn met System1-achtige verwerking bij lage complexiteit worden System2-achtig onder complexiteitsdruk, terwijl System2 kan worden gezien als generalisatie over oplossingsstructuren. We vertalen dit perspectief naar de praktijk met aanbevelingen voor het operationaliseren van Complexity OoD over de hele stack: het integreren van complexiteit in het ontwerp van benchmarks en evaluatiemetrices, het heroverwegen van supervisie om oplossingssporen te targeten, het zoeken en ontwerpen van inductieve biases voor Complexity OoD-generalisatie, het aanpakken van spillovers van leren naar redeneren zoals valse shortcuts, semantische robuustheid, catastrofaal vergeten en stapgewijze calibratie. Omdat Complexity OoD niet kan worden opgelost door alleen data te schalen, zal vooruitgang naar robuust redeneren architecturen en trainingsregimes vereisen die expliciet rekening houden met complexiteit en berekening toewijzen.
English
Recent progress has pushed AI frontiers from pattern recognition tasks toward
problems that require step by step, System2 style reasoning, especially with
large language models. Yet, unlike learning, where generalization and out of
distribution (OoD) evaluation concepts are well formalized, there is no clear,
consistent definition or metric for reasoning ability. We propose Complexity
Out of Distribution (Complexity OoD) generalization as a framework and problem
setting to define and measure reasoning. A model exhibits Complexity OoD
generalization when it maintains performance on test instances whose minimal
required solution complexity, either representational (richer solution
structure) or computational (more reasoning steps/program length), exceeds that
of all training examples. We formalize complexity via solution description
Kolmogorov complexity and operational proxies (e.g., object/relation counts;
reasoning step counts), clarifying how Complexity OoD differs from length and
compositional OoD. This lens unifies learning and reasoning: many cases
solvable with System1 like processing at low complexity become System2 like
under complexity pressure, while System2 can be viewed as generalization over
solution structures. We translate this perspective into practice with
recommendations for operationalizing Complexity OoD across the stack:
incorporating complexity into benchmark and evaluation metric design,
rethinking supervision to target solution traces, seeking and designing
inductive biases for Complexity OoD generalization, addressing learning to
reason spillovers such as spurious shortcuts, semantic robustness, catastrophic
forgetting, and step wise calibration. Because Complexity OoD cannot be solved
by scaling data alone, progress toward robust reasoning will require
architectures and training regimes that explicitly model and allocate
computation with respect to complexity.