Brückenschlag zwischen Schlussfolgerung und Lernen: Entlarvung von Illusionen durch Komplexitätsübergreifende Generalisierung außerhalb der Verteilung

papers.abstract

Jüngste Fortschritte haben die Grenzen der KI von Aufgaben der Mustererkennung hin zu Problemen verschoben, die eine schrittweise, System2-artige Argumentation erfordern, insbesondere bei großen Sprachmodellen. Im Gegensatz zum Lernen, bei dem Konzepte wie Generalisierung und Out-of-Distribution (OoD)-Evaluation gut formalisiert sind, gibt es jedoch keine klare, konsistente Definition oder Metrik für die Fähigkeit zur Argumentation. Wir schlagen Generalisierung über Komplexität Out of Distribution (Complexity OoD) als Rahmen und Problemstellung vor, um Argumentation zu definieren und zu messen. Ein Modell zeigt Complexity OoD-Generalisierung, wenn es seine Leistung bei Testinstanzen beibehält, deren minimal erforderliche Lösungskomplexität – sei es repräsentational (reichhaltigere Lösungsstruktur) oder rechnerisch (mehr Argumentationsschritte/Programmlänge) – die aller Trainingsbeispiele übersteigt. Wir formalisieren Komplexität über die Kolmogorov-Komplexität der Lösungsbeschreibung und operationale Proxys (z. B. Objekt-/Relationszählungen; Zählungen von Argumentationsschritten), um zu verdeutlichen, wie sich Complexity OoD von Längen- und kompositioneller OoD unterscheidet. Diese Perspektive vereint Lernen und Argumentation: Viele Fälle, die mit System1-artiger Verarbeitung bei niedriger Komplexität lösbar sind, werden unter Komplexitätsdruck System2-artig, während System2 als Generalisierung über Lösungsstrukturen betrachtet werden kann. Wir übersetzen diese Sichtweise in die Praxis mit Empfehlungen zur Operationalisierung von Complexity OoD über den gesamten Stack: Einbeziehung von Komplexität in das Design von Benchmarks und Evaluationsmetriken, Überdenken der Supervision zur Zielsetzung von Lösungsspuren, Suche und Gestaltung von induktiven Verzerrungen für Complexity OoD-Generalisierung, Behandlung von Spillover-Effekten beim Lernen zur Argumentation wie trügerische Abkürzungen, semantische Robustheit, katastrophales Vergessen und schrittweise Kalibrierung. Da Complexity OoD nicht allein durch Skalierung von Daten gelöst werden kann, wird der Fortschritt hin zu robuster Argumentation Architekturen und Trainingsregime erfordern, die Komplexität explizit modellieren und Rechenressourcen entsprechend zuweisen.

English

Recent progress has pushed AI frontiers from pattern recognition tasks toward problems that require step by step, System2 style reasoning, especially with large language models. Yet, unlike learning, where generalization and out of distribution (OoD) evaluation concepts are well formalized, there is no clear, consistent definition or metric for reasoning ability. We propose Complexity Out of Distribution (Complexity OoD) generalization as a framework and problem setting to define and measure reasoning. A model exhibits Complexity OoD generalization when it maintains performance on test instances whose minimal required solution complexity, either representational (richer solution structure) or computational (more reasoning steps/program length), exceeds that of all training examples. We formalize complexity via solution description Kolmogorov complexity and operational proxies (e.g., object/relation counts; reasoning step counts), clarifying how Complexity OoD differs from length and compositional OoD. This lens unifies learning and reasoning: many cases solvable with System1 like processing at low complexity become System2 like under complexity pressure, while System2 can be viewed as generalization over solution structures. We translate this perspective into practice with recommendations for operationalizing Complexity OoD across the stack: incorporating complexity into benchmark and evaluation metric design, rethinking supervision to target solution traces, seeking and designing inductive biases for Complexity OoD generalization, addressing learning to reason spillovers such as spurious shortcuts, semantic robustness, catastrophic forgetting, and step wise calibration. Because Complexity OoD cannot be solved by scaling data alone, progress toward robust reasoning will require architectures and training regimes that explicitly model and allocate computation with respect to complexity.

Brückenschlag zwischen Schlussfolgerung und Lernen: Entlarvung von Illusionen durch Komplexitätsübergreifende Generalisierung außerhalb der Verteilung

Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization

papers.abstract

Support