Quels attributs de données stimulent le raisonnement mathématique et la programmation ? Une investigation via les fonctions d'influence
Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions
May 26, 2025
Auteurs: Siqi Kou, Qingyuan Tian, Hanwen Xu, Zihao Zeng, Zhijie Deng
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement remarquables en mathématiques et en programmation, souvent renforcées par un post-entraînement sur les chaînes de pensée (CoTs) générées par des modèles plus performants. Cependant, les stratégies existantes pour constituer de telles données d'entraînement reposent principalement sur des heuristiques, limitant la généralisabilité et ne parvenant pas à capturer les subtilités sous-jacentes des données. Pour pallier ces limitations, nous exploitons les fonctions d'influence pour attribuer systématiquement la capacité de raisonnement des LLMs en mathématiques et en programmation à des exemples, séquences et tokens individuels d'entraînement, permettant ainsi une compréhension plus approfondie des caractéristiques efficaces des données. Notre méthode d'Attribution de Raisonnement basée sur l'Influence (Infra) révèle des effets inter-domaines non triviaux entre les tâches de mathématiques et de programmation : les exemples de mathématiques de haute difficulté améliorent à la fois le raisonnement mathématique et le raisonnement en programmation, tandis que les tâches de programmation de faible difficulté bénéficient le plus efficacement au raisonnement en programmation. Sur la base de ces résultats, nous introduisons une stratégie simple mais efficace de repondération des données en inversant la difficulté des tâches, ce qui double la précision de AIME24 de 10\% à 20\% et augmente la précision de LiveCodeBench de 33,8\% à 35,3\% pour Qwen2.5-7B-Instruct. De plus, notre attribution fine révèle que les comportements exploratoires au niveau des séquences améliorent les performances de raisonnement à la fois en mathématiques et en programmation, et que les modèles d'influence au niveau des tokens sont distincts pour le raisonnement mathématique et le raisonnement en programmation : le premier privilégie les connecteurs logiques en langage naturel, tandis que le second met l'accent sur la syntaxe structurelle.
English
Large language models (LLMs) have demonstrated remarkable reasoning
capabilities in math and coding, often bolstered by post-training on the
chain-of-thoughts (CoTs) generated by stronger models. However, existing
strategies for curating such training data predominantly rely on heuristics,
limiting generalizability and failing to capture subtleties underlying in data.
To address these limitations, we leverage influence functions to systematically
attribute LLMs' reasoning ability on math and coding to individual training
examples, sequences, and tokens, enabling deeper insights into effective data
characteristics. Our Influence-based Reasoning Attribution (Infra) uncovers
nontrivial cross-domain effects across math and coding tasks: high-difficulty
math examples improve both math and code reasoning, while low-difficulty code
tasks most effectively benefit code reasoning. Based on these findings, we
introduce a simple yet effective dataset reweighting strategy by flipping task
difficulty, which doubles AIME24 accuracy from 10\% to 20\% and boosts
LiveCodeBench accuracy from 33.8\% to 35.3\% for Qwen2.5-7B-Instruct. Moreover,
our fine-grained attribution reveals that the sequence-level exploratory
behaviors enhance reasoning performance in both math and code, and the
token-level influence patterns are distinct for math and code reasoning: the
former prefers natural language logic connectors and the latter emphasizes
structural syntax.Summary
AI-Generated Summary