Sobre o Fator de Confusão do Comprimento do Passo na Seleção de Dados de Raciocínio em LLMs

Resumo

Modelos de raciocínio de grande escala têm demonstrado recentemente um forte desempenho em tarefas complexas que exigem longas cadeias de raciocínio, através do *fine-tuning* supervisionado em conjuntos de dados extensos e de alta qualidade. Para construir tais conjuntos de dados, os *pipelines* existentes geram dados de raciocínio longo a partir de Modelos de Linguagem de Grande Escala (LLMs) mais capazes e aplicam métodos de seleção heurísticos manuais ou baseados em naturalidade para filtrar amostras de alta qualidade. Apesar da eficácia comprovada da seleção de dados baseada em naturalidade, que classifica os dados pela probabilidade logarítmica média atribuída pelos LLMs, a nossa análise mostra que, quando aplicada a conjuntos de dados de raciocínio de LLMs, ela prefere sistematicamente amostras com etapas de raciocínio mais longas (ou seja, mais *tokens* por etapa) em vez de amostras de qualidade superior, um fenómeno que designamos por **confundimento do comprimento da etapa**. Através de análise quantitativa, atribuímos este fenómeno aos primeiros *tokens* de baixa probabilidade nas etapas de raciocínio; etapas mais longas diluem a sua influência, inflacionando assim as probabilidades logarítmicas médias. Para resolver este problema, propomos dois métodos variantes: **ASLEC-DROP**, que ignora as probabilidades do primeiro *token* ao calcular a probabilidade logarítmica média, e **ASLEC-CASL**, que aplica uma regressão de desvio causal para remover o efeito de confundimento dos primeiros *tokens*. Experiências realizadas em quatro LLMs e cinco *benchmarks* de avaliação demonstram a eficácia da nossa abordagem na mitigação do problema de confundimento do comprimento da etapa.

English

Large reasoning models have recently demonstrated strong performance on complex tasks that require long chain-of-thought reasoning, through supervised fine-tuning on large-scale and high-quality datasets. To construct such datasets, existing pipelines generate long reasoning data from more capable Large Language Models (LLMs) and apply manually heuristic or naturalness-based selection methods to filter high-quality samples. Despite the proven effectiveness of naturalness-based data selection, which ranks data by the average log probability assigned by LLMs, our analysis shows that, when applied to LLM reasoning datasets, it systematically prefers samples with longer reasoning steps (i.e., more tokens per step) rather than higher-quality ones, a phenomenon we term step length confounding. Through quantitative analysis, we attribute this phenomenon to low-probability first tokens in reasoning steps; longer steps dilute their influence, thereby inflating the average log probabilities. To address this issue, we propose two variant methods: ASLEC-DROP, which drops first-token probabilities when computing average log probability, and ASLEC-CASL, which applies a causal debiasing regression to remove the first tokens' confounding effect. Experiments across four LLMs and five evaluation benchmarks demonstrate the effectiveness of our approach in mitigating the step length confounding problem.

Sobre o Fator de Confusão do Comprimento do Passo na Seleção de Dados de Raciocínio em LLMs

On the Step Length Confounding in LLM Reasoning Data Selection

Resumo

Support