Quali attributi dei dati stimolano il ragionamento matematico e di codice? Un'indagine attraverso le funzioni di influenza
Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions
May 26, 2025
Autori: Siqi Kou, Qingyuan Tian, Hanwen Xu, Zihao Zeng, Zhijie Deng
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità di ragionamento notevoli in matematica e programmazione, spesso potenziate da un post-addestramento sulle catene di pensiero (CoT) generate da modelli più avanzati. Tuttavia, le strategie esistenti per la selezione di tali dati di addestramento si basano principalmente su euristiche, limitando la generalizzabilità e non riuscendo a cogliere le sottigliezze intrinseche ai dati. Per affrontare queste limitazioni, sfruttiamo le funzioni di influenza per attribuire sistematicamente la capacità di ragionamento degli LLM in matematica e programmazione a singoli esempi, sequenze e token di addestramento, consentendo una comprensione più profonda delle caratteristiche efficaci dei dati. Il nostro approccio di Attribuzione del Ragionamento basato sull'Influenza (Infra) rivela effetti non banali tra domini nelle attività di matematica e programmazione: esempi di matematica ad alta difficoltà migliorano sia il ragionamento matematico che quello di programmazione, mentre compiti di programmazione a bassa difficoltà risultano più efficaci per il ragionamento di codice. Sulla base di queste scoperte, introduciamo una strategia semplice ma efficace di ripesatura del dataset invertendo la difficoltà dei compiti, che raddoppia l'accuratezza di AIME24 dal 10% al 20% e aumenta l'accuratezza di LiveCodeBench dal 33,8% al 35,3% per Qwen2.5-7B-Instruct. Inoltre, la nostra attribuzione granulare rivela che i comportamenti esplorativi a livello di sequenza migliorano le prestazioni di ragionamento sia in matematica che in programmazione, e che i modelli di influenza a livello di token sono distinti per il ragionamento matematico e di codice: il primo preferisce connettori logici in linguaggio naturale, mentre il secondo enfatizza la sintassi strutturale.
English
Large language models (LLMs) have demonstrated remarkable reasoning
capabilities in math and coding, often bolstered by post-training on the
chain-of-thoughts (CoTs) generated by stronger models. However, existing
strategies for curating such training data predominantly rely on heuristics,
limiting generalizability and failing to capture subtleties underlying in data.
To address these limitations, we leverage influence functions to systematically
attribute LLMs' reasoning ability on math and coding to individual training
examples, sequences, and tokens, enabling deeper insights into effective data
characteristics. Our Influence-based Reasoning Attribution (Infra) uncovers
nontrivial cross-domain effects across math and coding tasks: high-difficulty
math examples improve both math and code reasoning, while low-difficulty code
tasks most effectively benefit code reasoning. Based on these findings, we
introduce a simple yet effective dataset reweighting strategy by flipping task
difficulty, which doubles AIME24 accuracy from 10\% to 20\% and boosts
LiveCodeBench accuracy from 33.8\% to 35.3\% for Qwen2.5-7B-Instruct. Moreover,
our fine-grained attribution reveals that the sequence-level exploratory
behaviors enhance reasoning performance in both math and code, and the
token-level influence patterns are distinct for math and code reasoning: the
former prefers natural language logic connectors and the latter emphasizes
structural syntax.