추론에서 학습으로의 연결: 분포 외 일반화 복잡성을 활용한 환상 해체
Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization
October 6, 2025
저자: Mohammad Mahdi Samiei Paqaleh, Arash Marioriyad, Arman Tahmasebi-Zadeh, Mohamadreza Fereydooni, Mahdi Ghaznavai, Mahdieh Soleymani Baghshah
cs.AI
초록
최근의 발전은 AI의 전선을 패턴 인식 작업에서 단계별, System2 스타일의 추론이 필요한 문제로, 특히 대형 언어 모델을 통해 확장시켰다. 그러나 일반화와 분포 외(OoD) 평가 개념이 잘 정립된 학습과 달리, 추론 능력에 대한 명확하고 일관된 정의나 지표는 없다. 우리는 복잡성 분포 외(Complexity OoD) 일반화를 추론을 정의하고 측정하기 위한 프레임워크 및 문제 설정으로 제안한다. 모델은 최소 요구 솔루션 복잡도(표현적: 더 풍부한 솔루션 구조, 계산적: 더 많은 추론 단계/프로그램 길이)가 모든 훈련 예제를 초과하는 테스트 인스턴스에서 성능을 유지할 때 Complexity OoD 일반화를 보인다. 우리는 솔루션 설명 콜모고로프 복잡도와 객체/관계 수, 추론 단계 수와 같은 실질적 대리 지표를 통해 복잡도를 공식화하여 Complexity OoD가 길이 및 구성적 OoD와 어떻게 다른지 명확히 한다. 이 렌즈는 학습과 추론을 통합한다: 낮은 복잡도에서 System1과 같은 처리로 해결 가능한 많은 경우가 복잡도 압력 하에서 System2와 같이 되며, System2는 솔루션 구조에 대한 일반화로 볼 수 있다. 우리는 이 관점을 실천에 옮기기 위해 Complexity OoD를 스택 전반에 걸쳐 운영화하기 위한 권장 사항을 제시한다: 벤치마크 및 평가 지표 설계에 복잡도를 통합, 솔루션 흔적을 목표로 하는 감독 방식 재고, Complexity OoD 일반화를 위한 귀납적 편향 탐색 및 설계, 허위 단축, 의미론적 견고성, 파국적 망각, 단계별 보정과 같은 추론 학습의 부작용 해결. Complexity OoD는 데이터 확장만으로 해결될 수 없기 때문에, 견고한 추론을 향한 진전은 복잡도에 대해 계산을 명시적으로 모델링하고 할당하는 아키텍처와 훈련 체계를 필요로 할 것이다.
English
Recent progress has pushed AI frontiers from pattern recognition tasks toward
problems that require step by step, System2 style reasoning, especially with
large language models. Yet, unlike learning, where generalization and out of
distribution (OoD) evaluation concepts are well formalized, there is no clear,
consistent definition or metric for reasoning ability. We propose Complexity
Out of Distribution (Complexity OoD) generalization as a framework and problem
setting to define and measure reasoning. A model exhibits Complexity OoD
generalization when it maintains performance on test instances whose minimal
required solution complexity, either representational (richer solution
structure) or computational (more reasoning steps/program length), exceeds that
of all training examples. We formalize complexity via solution description
Kolmogorov complexity and operational proxies (e.g., object/relation counts;
reasoning step counts), clarifying how Complexity OoD differs from length and
compositional OoD. This lens unifies learning and reasoning: many cases
solvable with System1 like processing at low complexity become System2 like
under complexity pressure, while System2 can be viewed as generalization over
solution structures. We translate this perspective into practice with
recommendations for operationalizing Complexity OoD across the stack:
incorporating complexity into benchmark and evaluation metric design,
rethinking supervision to target solution traces, seeking and designing
inductive biases for Complexity OoD generalization, addressing learning to
reason spillovers such as spurious shortcuts, semantic robustness, catastrophic
forgetting, and step wise calibration. Because Complexity OoD cannot be solved
by scaling data alone, progress toward robust reasoning will require
architectures and training regimes that explicitly model and allocate
computation with respect to complexity.