効果的な推論連鎖は本質的な次元性を低減する
Effective Reasoning Chains Reduce Intrinsic Dimensionality
February 9, 2026
著者: Archiki Prasad, Mandar Joshi, Kenton Lee, Mohit Bansal, Peter Shaw
cs.AI
要旨
思考連鎖(CoT)推論とその派生手法は、複雑な推論タスクにおける言語モデルの性能を大幅に向上させてきたが、異なる戦略が汎化を促進する正確なメカニズムについては未解明な点が多い。現在の説明では、推論時の計算量増加や構造的ガイダンスが指摘されることが多いが、これらの要因と汎化性能の間に一貫した定量的関連性を確立することは依然として困難である。本研究では、推論連鎖の効果を特徴づける定量的指標として内在的次元性を同定する。内在的次元性は、特定のタスクで所与の精度閾値に到達するために必要なモデル次元の最小数を定量化する。モデルアーキテクチャを固定し、異なる推論戦略を通じてタスク定式化を変化させることで、効果的な推論戦略が一貫してタスクの内在的次元性を低減することを実証する。Gemma-3 1Bおよび4Bを用いたGSM8Kでの検証により、推論戦略の内在的次元性と、分布内データおよび分布外データにおけるその汎化性能との間に強い逆相関が観察された。我々の発見は、効果的な推論連鎖が、より少ないパラメータでタスクを効率的に圧縮することによって学習を促進することを示唆しており、推論プロセスを分析する新たな定量的指標を提供するものである。
English
Chain-of-thought (CoT) reasoning and its variants have substantially improved the performance of language models on complex reasoning tasks, yet the precise mechanisms by which different strategies facilitate generalization remain poorly understood. While current explanations often point to increased test-time computation or structural guidance, establishing a consistent, quantifiable link between these factors and generalization remains challenging. In this work, we identify intrinsic dimensionality as a quantitative measure for characterizing the effectiveness of reasoning chains. Intrinsic dimensionality quantifies the minimum number of model dimensions needed to reach a given accuracy threshold on a given task. By keeping the model architecture fixed and varying the task formulation through different reasoning strategies, we demonstrate that effective reasoning strategies consistently reduce the intrinsic dimensionality of the task. Validating this on GSM8K with Gemma-3 1B and 4B, we observe a strong inverse correlation between the intrinsic dimensionality of a reasoning strategy and its generalization performance on both in-distribution and out-of-distribution data. Our findings suggest that effective reasoning chains facilitate learning by better compressing the task using fewer parameters, offering a new quantitative metric for analyzing reasoning processes.