ChatPaper.aiChatPaper

Соединение рассуждений с обучением: разоблачение иллюзий с помощью обобщения сложности вне распределения

Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization

October 6, 2025
Авторы: Mohammad Mahdi Samiei Paqaleh, Arash Marioriyad, Arman Tahmasebi-Zadeh, Mohamadreza Fereydooni, Mahdi Ghaznavai, Mahdieh Soleymani Baghshah
cs.AI

Аннотация

Недавние достижения расширили границы ИИ, перейдя от задач распознавания образов к проблемам, требующим пошагового, системного (System2) стиля рассуждений, особенно в контексте больших языковых моделей. Однако, в отличие от обучения, где концепции обобщения и оценки вне распределения (OoD) хорошо формализованы, для способности к рассуждениям нет четкого и последовательного определения или метрики. Мы предлагаем обобщение сложности вне распределения (Complexity OoD) как концептуальную основу и постановку задачи для определения и измерения способности к рассуждениям. Модель демонстрирует обобщение Complexity OoD, если она сохраняет производительность на тестовых примерах, минимальная требуемая сложность решения которых — будь то репрезентационная (более богатая структура решения) или вычислительная (больше шагов рассуждений/длина программы) — превышает сложность всех обучающих примеров. Мы формализуем сложность через колмогоровскую сложность описания решения и операционные прокси (например, количество объектов/отношений; количество шагов рассуждений), уточняя, чем Complexity OoD отличается от OoD по длине и композиционности. Этот подход объединяет обучение и рассуждения: многие задачи, решаемые с помощью System1-подобной обработки на низком уровне сложности, переходят в System2-подобные под давлением сложности, а System2 можно рассматривать как обобщение над структурами решений. Мы переводим эту перспективу в практику, предлагая рекомендации по реализации Complexity OoD на всех уровнях: включение сложности в дизайн бенчмарков и метрик оценки, переосмысление супервизии для нацеливания на трассировку решений, поиск и проектирование индуктивных смещений для обобщения Complexity OoD, устранение побочных эффектов обучения рассуждениям, таких как ложные упрощения, семантическая устойчивость, катастрофическое забывание и пошаговая калибровка. Поскольку Complexity OoD нельзя решить только за счет масштабирования данных, прогресс в направлении устойчивых рассуждений потребует архитектур и режимов обучения, которые явно моделируют и распределяют вычисления с учетом сложности.
English
Recent progress has pushed AI frontiers from pattern recognition tasks toward problems that require step by step, System2 style reasoning, especially with large language models. Yet, unlike learning, where generalization and out of distribution (OoD) evaluation concepts are well formalized, there is no clear, consistent definition or metric for reasoning ability. We propose Complexity Out of Distribution (Complexity OoD) generalization as a framework and problem setting to define and measure reasoning. A model exhibits Complexity OoD generalization when it maintains performance on test instances whose minimal required solution complexity, either representational (richer solution structure) or computational (more reasoning steps/program length), exceeds that of all training examples. We formalize complexity via solution description Kolmogorov complexity and operational proxies (e.g., object/relation counts; reasoning step counts), clarifying how Complexity OoD differs from length and compositional OoD. This lens unifies learning and reasoning: many cases solvable with System1 like processing at low complexity become System2 like under complexity pressure, while System2 can be viewed as generalization over solution structures. We translate this perspective into practice with recommendations for operationalizing Complexity OoD across the stack: incorporating complexity into benchmark and evaluation metric design, rethinking supervision to target solution traces, seeking and designing inductive biases for Complexity OoD generalization, addressing learning to reason spillovers such as spurious shortcuts, semantic robustness, catastrophic forgetting, and step wise calibration. Because Complexity OoD cannot be solved by scaling data alone, progress toward robust reasoning will require architectures and training regimes that explicitly model and allocate computation with respect to complexity.
PDF92October 13, 2025