Conectando el razonamiento con el aprendizaje: Desenmascarando ilusiones mediante la generalización de complejidad fuera de distribución
Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization
October 6, 2025
Autores: Mohammad Mahdi Samiei Paqaleh, Arash Marioriyad, Arman Tahmasebi-Zadeh, Mohamadreza Fereydooni, Mahdi Ghaznavai, Mahdieh Soleymani Baghshah
cs.AI
Resumen
Los avances recientes han llevado las fronteras de la IA desde tareas de reconocimiento de patrones hacia problemas que requieren razonamiento paso a paso, de estilo Sistema 2, especialmente con modelos de lenguaje grandes. Sin embargo, a diferencia del aprendizaje, donde los conceptos de generalización y evaluación fuera de distribución (OoD) están bien formalizados, no existe una definición o métrica clara y consistente para la capacidad de razonamiento. Proponemos la generalización de Complejidad Fuera de Distribución (Complejidad OoD) como un marco y configuración de problema para definir y medir el razonamiento. Un modelo exhibe generalización de Complejidad OoD cuando mantiene su rendimiento en instancias de prueba cuya complejidad mínima requerida para la solución, ya sea representacional (estructura de solución más rica) o computacional (más pasos de razonamiento/longitud del programa), excede la de todos los ejemplos de entrenamiento. Formalizamos la complejidad mediante la complejidad de Kolmogorov de la descripción de la solución y proxies operacionales (por ejemplo, conteos de objetos/relaciones; conteos de pasos de razonamiento), aclarando cómo la Complejidad OoD difiere de la longitud y la OoD composicional. Esta perspectiva unifica el aprendizaje y el razonamiento: muchos casos resolubles con procesamiento de estilo Sistema 1 a baja complejidad se vuelven de estilo Sistema 2 bajo presión de complejidad, mientras que el Sistema 2 puede verse como generalización sobre estructuras de solución. Traducimos esta perspectiva a la práctica con recomendaciones para operacionalizar la Complejidad OoD en toda la pila: incorporar la complejidad en el diseño de puntos de referencia y métricas de evaluación, reconsiderar la supervisión para enfocarse en trazas de solución, buscar y diseñar sesgos inductivos para la generalización de Complejidad OoD, abordar efectos secundarios del aprendizaje para razonar, como atajos espurios, robustez semántica, olvido catastrófico y calibración paso a paso. Dado que la Complejidad OoD no puede resolverse simplemente escalando los datos, el progreso hacia un razonamiento robusto requerirá arquitecturas y regímenes de entrenamiento que modelen y asignen explícitamente la computación con respecto a la complejidad.
English
Recent progress has pushed AI frontiers from pattern recognition tasks toward
problems that require step by step, System2 style reasoning, especially with
large language models. Yet, unlike learning, where generalization and out of
distribution (OoD) evaluation concepts are well formalized, there is no clear,
consistent definition or metric for reasoning ability. We propose Complexity
Out of Distribution (Complexity OoD) generalization as a framework and problem
setting to define and measure reasoning. A model exhibits Complexity OoD
generalization when it maintains performance on test instances whose minimal
required solution complexity, either representational (richer solution
structure) or computational (more reasoning steps/program length), exceeds that
of all training examples. We formalize complexity via solution description
Kolmogorov complexity and operational proxies (e.g., object/relation counts;
reasoning step counts), clarifying how Complexity OoD differs from length and
compositional OoD. This lens unifies learning and reasoning: many cases
solvable with System1 like processing at low complexity become System2 like
under complexity pressure, while System2 can be viewed as generalization over
solution structures. We translate this perspective into practice with
recommendations for operationalizing Complexity OoD across the stack:
incorporating complexity into benchmark and evaluation metric design,
rethinking supervision to target solution traces, seeking and designing
inductive biases for Complexity OoD generalization, addressing learning to
reason spillovers such as spurious shortcuts, semantic robustness, catastrophic
forgetting, and step wise calibration. Because Complexity OoD cannot be solved
by scaling data alone, progress toward robust reasoning will require
architectures and training regimes that explicitly model and allocate
computation with respect to complexity.