효과적인 추론 체인은 내재적 차원을 감소시킨다
Effective Reasoning Chains Reduce Intrinsic Dimensionality
February 9, 2026
저자: Archiki Prasad, Mandar Joshi, Kenton Lee, Mohit Bansal, Peter Shaw
cs.AI
초록
체인 오브 쏘트(CoT) 추론 및 그 변형들은 언어 모델의 복잡한 추론 과제 성능을 크게 향상시켰으나, 다양한 전략이 일반화를 촉진하는 정확한 메커니즘은 아직 명확히 이해되지 않고 있다. 현재의 설명들은 주로 증가된 테스트 시점 계산량이나 구조적 안내를 지목하지만, 이러한 요소들과 일반화 사이의 일관되고 정량적인 연관성을 확립하는 것은 여전히 어려운 과제로 남아 있다. 본 연구에서는 추론 체인의 효과를 규명하는 정량적 측도로서 본질적 차원을 제안한다. 본질적 차원은 주어진 과제에서 특정 정확도 임계값에 도달하기 위해 필요한 모델 차원의 최소 개수를 정량화한다. 모델 구조는 고정한 채 다양한 추론 전략을 통해 과제 형식을 변화시키면서, 효과적인 추론 전략이 과제의 본질적 차원을 지속적으로 감소시킨다는 것을 입증한다. Gemma-3 1B 및 4B 모델을 사용한 GSM8K 검증에서, 추론 전략의 본질적 차원과 내부 분포 및 외부 분포 데이터에 대한 일반화 성능 사이에 강력한 역상관 관계가 관찰되었다. 우리의 연구 결과는 효과적인 추론 체인이 더 적은 매개변수로 과제를 더 효율적으로 압축함으로써 학습을 용이하게 한다는 것을 시사하며, 이는 추론 과정 분석을 위한 새로운 정량적 지표를 제공한다.
English
Chain-of-thought (CoT) reasoning and its variants have substantially improved the performance of language models on complex reasoning tasks, yet the precise mechanisms by which different strategies facilitate generalization remain poorly understood. While current explanations often point to increased test-time computation or structural guidance, establishing a consistent, quantifiable link between these factors and generalization remains challenging. In this work, we identify intrinsic dimensionality as a quantitative measure for characterizing the effectiveness of reasoning chains. Intrinsic dimensionality quantifies the minimum number of model dimensions needed to reach a given accuracy threshold on a given task. By keeping the model architecture fixed and varying the task formulation through different reasoning strategies, we demonstrate that effective reasoning strategies consistently reduce the intrinsic dimensionality of the task. Validating this on GSM8K with Gemma-3 1B and 4B, we observe a strong inverse correlation between the intrinsic dimensionality of a reasoning strategy and its generalization performance on both in-distribution and out-of-distribution data. Our findings suggest that effective reasoning chains facilitate learning by better compressing the task using fewer parameters, offering a new quantitative metric for analyzing reasoning processes.