Over Code-Gestuurde Redenering in LLM's
On Code-Induced Reasoning in LLMs
September 25, 2025
Auteurs: Abdul Waheed, Zhen Wu, Carolyn Rosé, Daphne Ippolito
cs.AI
Samenvatting
Het is aangetoond dat codedata de redeneervaardigheden van grote taalmmodellen (LLMs) verbetert, maar het blijft onduidelijk welke aspecten van code hier het meest verantwoordelijk voor zijn. Wij onderzoeken deze vraag met een systematisch, data-gecentreerd raamwerk. We construeren parallelle instructiedatasets in tien programmeertalen en passen gecontroleerde verstoringen toe die selectief structurele of semantische eigenschappen van code verstoren. Vervolgens finetunen we LLMs uit vijf modelfamilies en acht schalen op elke variant en evalueren hun prestaties op taken in natuurlijke taal, wiskunde en code. Over 3.331 experimenten tonen onze resultaten aan dat LLMs kwetsbaarder zijn voor structurele verstoringen dan voor semantische, met name bij wiskunde- en codetaken. Geschikte abstracties zoals pseudocode en stroomdiagrammen kunnen even effectief zijn als code, terwijl het coderen van dezelfde informatie met minder tokens zonder zich te houden aan de oorspronkelijke syntax vaak de prestaties kan behouden of zelfs verbeteren. Opmerkelijk genoeg blijft zelfs gecorrumpeerde code met misleidende signalen concurrerend wanneer oppervlakkige regelmatigheden aanwezig blijven. Tot slot beïnvloeden syntactische stijlen ook taakspecifieke winsten, waarbij Python natuurlijke taalredenering bevordert en lagere programmeertalen zoals Java en Rust wiskunde bevorderen. Met ons systematische raamwerk streven we ernaar inzicht te bieden in hoe verschillende eigenschappen van code redenering beïnvloeden en de ontwerprichtlijnen voor trainingsdata te informeren om de redeneervaardigheden van LLMs te verbeteren.
English
Code data has been shown to enhance the reasoning capabilities of large
language models (LLMs), but it remains unclear which aspects of code are most
responsible. We investigate this question with a systematic, data-centric
framework. We construct parallel instruction datasets in ten programming
languages and apply controlled perturbations that selectively disrupt
structural or semantic properties of code. We then finetune LLMs from five
model families and eight scales on each variant and evaluate their performance
on natural language, math, and code tasks. Across 3,331 experiments, our
results show that LLMs are more vulnerable to structural perturbations than
semantic ones, particularly on math and code tasks. Appropriate abstractions
like pseudocode and flowcharts can be as effective as code, while encoding the
same information with fewer tokens without adhering to original syntax can
often retain or even improve performance. Remarkably, even corrupted code with
misleading signals remains competitive when surface-level regularities persist.
Finally, syntactic styles also shape task-specific gains with Python favoring
natural language reasoning and lower-level languages such as Java and Rust
favoring math. Through our systematic framework, we aim to provide insight into
how different properties of code influence reasoning and inform the design of
training data for enhancing LLM reasoning capabilities.