Sul Confondimento della Lunghezza del Passo nella Selezione dei Dati di Ragionamento per LLM
On the Step Length Confounding in LLM Reasoning Data Selection
April 8, 2026
Autori: Bing Wang, Rui Miao, Chen Shen, Shaotian Yan, Kaiyuan Liu, Ximing Li, Xiaosong Yuan, Sinan Fan, Jun Zhang, Jieping Ye
cs.AI
Abstract
I modelli di ragionamento di grandi dimensioni hanno recentemente dimostrato prestazioni eccellenti in compiti complessi che richiedono lunghe catene di ragionamento, grazie al fine-tuning supervisionato su dataset su larga scala e di alta qualità. Per costruire tali dataset, le pipeline esistenti generano dati di ragionamento esteso da modelli linguistici di grandi dimensioni (LLM) più capaci e applicano metodi di selezione manuale euristici o basati sulla naturalezza per filtrare campioni di alta qualità. Nonostante la comprovata efficacia della selezione dei dati basata sulla naturalezza, che classifica i dati in base alla probabilità logaritmica media assegnata dagli LLM, la nostra analisi mostra che, quando applicata ai dataset di ragionamento degli LLM, essa preferisce sistematicamente campioni con passaggi di ragionamento più lunghi (ovvero, più token per passaggio) piuttosto che quelli di qualità superiore, un fenomeno che definiamo confondimento della lunghezza del passo. Attraverso un'analisi quantitativa, attribuiamo questo fenomeno ai primi token a bassa probabilità nei passaggi di ragionamento; i passaggi più lunghi ne diluiscono l'influenza, inflazionando così le probabilità logaritmiche medie. Per affrontare questo problema, proponiamo due metodi varianti: ASLEC-DROP, che scarta le probabilità del primo token nel calcolo della probabilità logaritmica media, e ASLEC-CASL, che applica una regressione di debiasing causale per rimuovere l'effetto confondente dei primi token. Esperimenti condotti su quattro LLM e cinque benchmark di valutazione dimostrano l'efficacia del nostro approccio nell'attenuare il problema del confondimento della lunghezza del passo.
English
Large reasoning models have recently demonstrated strong performance on complex tasks that require long chain-of-thought reasoning, through supervised fine-tuning on large-scale and high-quality datasets. To construct such datasets, existing pipelines generate long reasoning data from more capable Large Language Models (LLMs) and apply manually heuristic or naturalness-based selection methods to filter high-quality samples. Despite the proven effectiveness of naturalness-based data selection, which ranks data by the average log probability assigned by LLMs, our analysis shows that, when applied to LLM reasoning datasets, it systematically prefers samples with longer reasoning steps (i.e., more tokens per step) rather than higher-quality ones, a phenomenon we term step length confounding. Through quantitative analysis, we attribute this phenomenon to low-probability first tokens in reasoning steps; longer steps dilute their influence, thereby inflating the average log probabilities. To address this issue, we propose two variant methods: ASLEC-DROP, which drops first-token probabilities when computing average log probability, and ASLEC-CASL, which applies a causal debiasing regression to remove the first tokens' confounding effect. Experiments across four LLMs and five evaluation benchmarks demonstrate the effectiveness of our approach in mitigating the step length confounding problem.