Effectieve redeneringsketens verminderen de intrinsieke dimensionaliteit.

Samenvatting

Chain-of-thought (CoT) redenering en zijn varianten hebben de prestaties van taalmodelen op complexe redeneertaken aanzienlijk verbeterd, maar de precieze mechanismen waarmee verschillende strategieën generalisatie vergemakkelijken, blijven slecht begrepen. Hoewel huidige verklaringen vaak wijzen op een verhoogde rekentijd tijdens het testen of structurele begeleiding, blijft het een uitdaging om een consistente, kwantificeerbare relatie tussen deze factoren en generalisatie vast te stellen. In dit werk identificeren we intrinsieke dimensionaliteit als een kwantitatieve maatstaf voor het karakteriseren van de effectiviteit van redeneerketens. Intrinsieke dimensionaliteit kwantificeert het minimale aantal modeldimensies dat nodig is om een bepaalde nauwkeurigheidsdrempel op een bepaalde taak te bereiken. Door de modelarchitectuur constant te houden en de taakformulering te variëren via verschillende redeneerstrategieën, tonen we aan dat effectieve redeneerstrategieën consistent de intrinsieke dimensionaliteit van de taak verlagen. Door dit te valideren op GSM8K met Gemma-3 1B en 4B, observeren we een sterke omgekeerde correlatie tussen de intrinsieke dimensionaliteit van een redeneerstrategie en zijn generalisatieprestatie op zowel in-distributie als out-of-distributie gegevens. Onze bevindingen suggereren dat effectieve redeneerketens het leren vergemakkelijken door de taak beter te comprimeren met minder parameters, wat een nieuwe kwantitatieve metriek biedt voor het analyseren van redeneerprocessen.

English

Chain-of-thought (CoT) reasoning and its variants have substantially improved the performance of language models on complex reasoning tasks, yet the precise mechanisms by which different strategies facilitate generalization remain poorly understood. While current explanations often point to increased test-time computation or structural guidance, establishing a consistent, quantifiable link between these factors and generalization remains challenging. In this work, we identify intrinsic dimensionality as a quantitative measure for characterizing the effectiveness of reasoning chains. Intrinsic dimensionality quantifies the minimum number of model dimensions needed to reach a given accuracy threshold on a given task. By keeping the model architecture fixed and varying the task formulation through different reasoning strategies, we demonstrate that effective reasoning strategies consistently reduce the intrinsic dimensionality of the task. Validating this on GSM8K with Gemma-3 1B and 4B, we observe a strong inverse correlation between the intrinsic dimensionality of a reasoning strategy and its generalization performance on both in-distribution and out-of-distribution data. Our findings suggest that effective reasoning chains facilitate learning by better compressing the task using fewer parameters, offering a new quantitative metric for analyzing reasoning processes.

Effectieve redeneringsketens verminderen de intrinsieke dimensionaliteit.

Effective Reasoning Chains Reduce Intrinsic Dimensionality

Samenvatting

Support