Relier le raisonnement à l'apprentissage : Démasquer les illusions grâce à la généralisation hors distribution basée sur la complexité
Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization
October 6, 2025
papers.authors: Mohammad Mahdi Samiei Paqaleh, Arash Marioriyad, Arman Tahmasebi-Zadeh, Mohamadreza Fereydooni, Mahdi Ghaznavai, Mahdieh Soleymani Baghshah
cs.AI
papers.abstract
Les récents progrès ont repoussé les frontières de l'IA au-delà des tâches de reconnaissance de motifs vers des problèmes nécessitant un raisonnement étape par étape de type Système 2, en particulier avec les grands modèles de langage. Cependant, contrairement à l'apprentissage où les concepts de généralisation et d'évaluation hors distribution (OoD) sont bien formalisés, il n'existe pas de définition ou de métrique claire et cohérente pour la capacité de raisonnement. Nous proposons la généralisation hors distribution de complexité (Complexity OoD) comme cadre et problème pour définir et mesurer le raisonnement. Un modèle présente une généralisation Complexity OoD lorsqu'il maintient ses performances sur des instances de test dont la complexité minimale requise pour la solution, qu'elle soit représentationnelle (structure de solution plus riche) ou computationnelle (plus d'étapes de raisonnement/longueur de programme), dépasse celle de tous les exemples d'entraînement. Nous formalisons la complexité via la complexité de Kolmogorov des descriptions de solutions et des proxies opérationnels (par exemple, comptes d'objets/relations ; comptes d'étapes de raisonnement), clarifiant ainsi en quoi Complexity OoD diffère de la longueur et de la composition OoD. Cette perspective unifie apprentissage et raisonnement : de nombreux cas résolubles par un traitement de type Système 1 à faible complexité deviennent de type Système 2 sous pression de complexité, tandis que le Système 2 peut être vu comme une généralisation sur les structures de solutions. Nous traduisons cette perspective en pratique avec des recommandations pour opérationnaliser Complexity OoD à travers la pile : intégrer la complexité dans la conception des benchmarks et des métriques d'évaluation, repenser la supervision pour cibler les traces de solutions, rechercher et concevoir des biais inductifs pour la généralisation Complexity OoD, aborder les effets de bord de l'apprentissage à raisonner tels que les raccourcis fallacieux, la robustesse sémantique, l'oubli catastrophique et l'étalonnage étape par étape. Parce que Complexity OoD ne peut être résolu par la simple augmentation des données, les progrès vers un raisonnement robuste nécessiteront des architectures et des régimes d'entraînement qui modélisent et allouent explicitement le calcul en fonction de la complexité.
English
Recent progress has pushed AI frontiers from pattern recognition tasks toward
problems that require step by step, System2 style reasoning, especially with
large language models. Yet, unlike learning, where generalization and out of
distribution (OoD) evaluation concepts are well formalized, there is no clear,
consistent definition or metric for reasoning ability. We propose Complexity
Out of Distribution (Complexity OoD) generalization as a framework and problem
setting to define and measure reasoning. A model exhibits Complexity OoD
generalization when it maintains performance on test instances whose minimal
required solution complexity, either representational (richer solution
structure) or computational (more reasoning steps/program length), exceeds that
of all training examples. We formalize complexity via solution description
Kolmogorov complexity and operational proxies (e.g., object/relation counts;
reasoning step counts), clarifying how Complexity OoD differs from length and
compositional OoD. This lens unifies learning and reasoning: many cases
solvable with System1 like processing at low complexity become System2 like
under complexity pressure, while System2 can be viewed as generalization over
solution structures. We translate this perspective into practice with
recommendations for operationalizing Complexity OoD across the stack:
incorporating complexity into benchmark and evaluation metric design,
rethinking supervision to target solution traces, seeking and designing
inductive biases for Complexity OoD generalization, addressing learning to
reason spillovers such as spurious shortcuts, semantic robustness, catastrophic
forgetting, and step wise calibration. Because Complexity OoD cannot be solved
by scaling data alone, progress toward robust reasoning will require
architectures and training regimes that explicitly model and allocate
computation with respect to complexity.