Over de Verstorende Invloed van Staplengte bij de Selectie van Redeneergegevens voor Grote Taalmodellen
On the Step Length Confounding in LLM Reasoning Data Selection
April 8, 2026
Auteurs: Bing Wang, Rui Miao, Chen Shen, Shaotian Yan, Kaiyuan Liu, Ximing Li, Xiaosong Yuan, Sinan Fan, Jun Zhang, Jieping Ye
cs.AI
Samenvatting
Grote redeneermodellen hebben recentelijk sterke prestaties getoond op complexe taken die lange ketens van redenering vereisen, door middel van gesuperviseerde fine-tuning op grootschalige en hoogwaardige datasets. Om dergelijke datasets te construeren, genereren bestaande pijplijnen lange redeneergegevens van krachtigere Large Language Models (LLM's) en passen ze handmatige heuristische of op natuurlijkheid gebaseerde selectiemethoden toe om hoogwaardige samples te filteren. Ondanks de bewezen effectiviteit van op natuurlijkheid gebaseerde dataselectie – waarbij data wordt gerangschikt op basis van de gemiddelde log-waarschijnlijkheid toegekend door LLM's – toont onze analyse aan dat deze methode, wanneer toegepast op LLM-redeneerdatasets, systematisch de voorkeur geeft aan samples met langere redeneerstappen (d.w.z. meer tokens per stap) in plaats van aan samples van hogere kwaliteit, een fenomeen dat we *stap-lengte-verwarring* noemen. Via kwantitatieve analyse schrijven we dit fenomeen toe aan lage waarschijnlijkheid van eerste tokens in redeneerstappen; langere stappen verdunnen hun invloed, waardoor de gemiddelde log-waarschijnlijkheden kunstmatig worden opgeblazen. Om dit probleem aan te pakken, stellen we twee variantmethoden voor: ASLEC-DROP, die eerste-token-waarschijnlijkheden negeert bij het berekenen van de gemiddelde log-waarschijnlijkheid, en ASLEC-CASL, die een causale debiasing-regressie toepast om het verstorende effect van eerste tokens te verwijderen. Experimenten met vier LLM's en vijf evaluatiebenchmarks demonstreren de effectiviteit van onze aanpak bij het mitigeren van het stap-lengte-verwarringsprobleem.
English
Large reasoning models have recently demonstrated strong performance on complex tasks that require long chain-of-thought reasoning, through supervised fine-tuning on large-scale and high-quality datasets. To construct such datasets, existing pipelines generate long reasoning data from more capable Large Language Models (LLMs) and apply manually heuristic or naturalness-based selection methods to filter high-quality samples. Despite the proven effectiveness of naturalness-based data selection, which ranks data by the average log probability assigned by LLMs, our analysis shows that, when applied to LLM reasoning datasets, it systematically prefers samples with longer reasoning steps (i.e., more tokens per step) rather than higher-quality ones, a phenomenon we term step length confounding. Through quantitative analysis, we attribute this phenomenon to low-probability first tokens in reasoning steps; longer steps dilute their influence, thereby inflating the average log probabilities. To address this issue, we propose two variant methods: ASLEC-DROP, which drops first-token probabilities when computing average log probability, and ASLEC-CASL, which applies a causal debiasing regression to remove the first tokens' confounding effect. Experiments across four LLMs and five evaluation benchmarks demonstrate the effectiveness of our approach in mitigating the step length confounding problem.