Quali attributi dei dati stimolano il ragionamento matematico e di codice? Un'indagine attraverso le funzioni di influenza

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità di ragionamento notevoli in matematica e programmazione, spesso potenziate da un post-addestramento sulle catene di pensiero (CoT) generate da modelli più avanzati. Tuttavia, le strategie esistenti per la selezione di tali dati di addestramento si basano principalmente su euristiche, limitando la generalizzabilità e non riuscendo a cogliere le sottigliezze intrinseche ai dati. Per affrontare queste limitazioni, sfruttiamo le funzioni di influenza per attribuire sistematicamente la capacità di ragionamento degli LLM in matematica e programmazione a singoli esempi, sequenze e token di addestramento, consentendo una comprensione più profonda delle caratteristiche efficaci dei dati. Il nostro approccio di Attribuzione del Ragionamento basato sull'Influenza (Infra) rivela effetti non banali tra domini nelle attività di matematica e programmazione: esempi di matematica ad alta difficoltà migliorano sia il ragionamento matematico che quello di programmazione, mentre compiti di programmazione a bassa difficoltà risultano più efficaci per il ragionamento di codice. Sulla base di queste scoperte, introduciamo una strategia semplice ma efficace di ripesatura del dataset invertendo la difficoltà dei compiti, che raddoppia l'accuratezza di AIME24 dal 10% al 20% e aumenta l'accuratezza di LiveCodeBench dal 33,8% al 35,3% per Qwen2.5-7B-Instruct. Inoltre, la nostra attribuzione granulare rivela che i comportamenti esplorativi a livello di sequenza migliorano le prestazioni di ragionamento sia in matematica che in programmazione, e che i modelli di influenza a livello di token sono distinti per il ragionamento matematico e di codice: il primo preferisce connettori logici in linguaggio naturale, mentre il secondo enfatizza la sintassi strutturale.

English

Large language models (LLMs) have demonstrated remarkable reasoning capabilities in math and coding, often bolstered by post-training on the chain-of-thoughts (CoTs) generated by stronger models. However, existing strategies for curating such training data predominantly rely on heuristics, limiting generalizability and failing to capture subtleties underlying in data. To address these limitations, we leverage influence functions to systematically attribute LLMs' reasoning ability on math and coding to individual training examples, sequences, and tokens, enabling deeper insights into effective data characteristics. Our Influence-based Reasoning Attribution (Infra) uncovers nontrivial cross-domain effects across math and coding tasks: high-difficulty math examples improve both math and code reasoning, while low-difficulty code tasks most effectively benefit code reasoning. Based on these findings, we introduce a simple yet effective dataset reweighting strategy by flipping task difficulty, which doubles AIME24 accuracy from 10\% to 20\% and boosts LiveCodeBench accuracy from 33.8\% to 35.3\% for Qwen2.5-7B-Instruct. Moreover, our fine-grained attribution reveals that the sequence-level exploratory behaviors enhance reasoning performance in both math and code, and the token-level influence patterns are distinct for math and code reasoning: the former prefers natural language logic connectors and the latter emphasizes structural syntax.

Quali attributi dei dati stimolano il ragionamento matematico e di codice? Un'indagine attraverso le funzioni di influenza

Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions

Abstract

Support