Quels attributs de données stimulent le raisonnement mathématique et la programmation ? Une investigation via les fonctions d'influence

papers.abstract

Les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement remarquables en mathématiques et en programmation, souvent renforcées par un post-entraînement sur les chaînes de pensée (CoTs) générées par des modèles plus performants. Cependant, les stratégies existantes pour constituer de telles données d'entraînement reposent principalement sur des heuristiques, limitant la généralisabilité et ne parvenant pas à capturer les subtilités sous-jacentes des données. Pour pallier ces limitations, nous exploitons les fonctions d'influence pour attribuer systématiquement la capacité de raisonnement des LLMs en mathématiques et en programmation à des exemples, séquences et tokens individuels d'entraînement, permettant ainsi une compréhension plus approfondie des caractéristiques efficaces des données. Notre méthode d'Attribution de Raisonnement basée sur l'Influence (Infra) révèle des effets inter-domaines non triviaux entre les tâches de mathématiques et de programmation : les exemples de mathématiques de haute difficulté améliorent à la fois le raisonnement mathématique et le raisonnement en programmation, tandis que les tâches de programmation de faible difficulté bénéficient le plus efficacement au raisonnement en programmation. Sur la base de ces résultats, nous introduisons une stratégie simple mais efficace de repondération des données en inversant la difficulté des tâches, ce qui double la précision de AIME24 de 10\% à 20\% et augmente la précision de LiveCodeBench de 33,8\% à 35,3\% pour Qwen2.5-7B-Instruct. De plus, notre attribution fine révèle que les comportements exploratoires au niveau des séquences améliorent les performances de raisonnement à la fois en mathématiques et en programmation, et que les modèles d'influence au niveau des tokens sont distincts pour le raisonnement mathématique et le raisonnement en programmation : le premier privilégie les connecteurs logiques en langage naturel, tandis que le second met l'accent sur la syntaxe structurelle.

English

Large language models (LLMs) have demonstrated remarkable reasoning capabilities in math and coding, often bolstered by post-training on the chain-of-thoughts (CoTs) generated by stronger models. However, existing strategies for curating such training data predominantly rely on heuristics, limiting generalizability and failing to capture subtleties underlying in data. To address these limitations, we leverage influence functions to systematically attribute LLMs' reasoning ability on math and coding to individual training examples, sequences, and tokens, enabling deeper insights into effective data characteristics. Our Influence-based Reasoning Attribution (Infra) uncovers nontrivial cross-domain effects across math and coding tasks: high-difficulty math examples improve both math and code reasoning, while low-difficulty code tasks most effectively benefit code reasoning. Based on these findings, we introduce a simple yet effective dataset reweighting strategy by flipping task difficulty, which doubles AIME24 accuracy from 10\% to 20\% and boosts LiveCodeBench accuracy from 33.8\% to 35.3\% for Qwen2.5-7B-Instruct. Moreover, our fine-grained attribution reveals that the sequence-level exploratory behaviors enhance reasoning performance in both math and code, and the token-level influence patterns are distinct for math and code reasoning: the former prefers natural language logic connectors and the latter emphasizes structural syntax.

Quels attributs de données stimulent le raisonnement mathématique et la programmation ? Une investigation via les fonctions d'influence

Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions

papers.abstract

Support