ChatPaper.aiChatPaper

Over Code-Gestuurde Redenering in LLM's

On Code-Induced Reasoning in LLMs

September 25, 2025
Auteurs: Abdul Waheed, Zhen Wu, Carolyn Rosé, Daphne Ippolito
cs.AI

Samenvatting

Het is aangetoond dat codedata de redeneervaardigheden van grote taalmmodellen (LLMs) verbetert, maar het blijft onduidelijk welke aspecten van code hier het meest verantwoordelijk voor zijn. Wij onderzoeken deze vraag met een systematisch, data-gecentreerd raamwerk. We construeren parallelle instructiedatasets in tien programmeertalen en passen gecontroleerde verstoringen toe die selectief structurele of semantische eigenschappen van code verstoren. Vervolgens finetunen we LLMs uit vijf modelfamilies en acht schalen op elke variant en evalueren hun prestaties op taken in natuurlijke taal, wiskunde en code. Over 3.331 experimenten tonen onze resultaten aan dat LLMs kwetsbaarder zijn voor structurele verstoringen dan voor semantische, met name bij wiskunde- en codetaken. Geschikte abstracties zoals pseudocode en stroomdiagrammen kunnen even effectief zijn als code, terwijl het coderen van dezelfde informatie met minder tokens zonder zich te houden aan de oorspronkelijke syntax vaak de prestaties kan behouden of zelfs verbeteren. Opmerkelijk genoeg blijft zelfs gecorrumpeerde code met misleidende signalen concurrerend wanneer oppervlakkige regelmatigheden aanwezig blijven. Tot slot beïnvloeden syntactische stijlen ook taakspecifieke winsten, waarbij Python natuurlijke taalredenering bevordert en lagere programmeertalen zoals Java en Rust wiskunde bevorderen. Met ons systematische raamwerk streven we ernaar inzicht te bieden in hoe verschillende eigenschappen van code redenering beïnvloeden en de ontwerprichtlijnen voor trainingsdata te informeren om de redeneervaardigheden van LLMs te verbeteren.
English
Code data has been shown to enhance the reasoning capabilities of large language models (LLMs), but it remains unclear which aspects of code are most responsible. We investigate this question with a systematic, data-centric framework. We construct parallel instruction datasets in ten programming languages and apply controlled perturbations that selectively disrupt structural or semantic properties of code. We then finetune LLMs from five model families and eight scales on each variant and evaluate their performance on natural language, math, and code tasks. Across 3,331 experiments, our results show that LLMs are more vulnerable to structural perturbations than semantic ones, particularly on math and code tasks. Appropriate abstractions like pseudocode and flowcharts can be as effective as code, while encoding the same information with fewer tokens without adhering to original syntax can often retain or even improve performance. Remarkably, even corrupted code with misleading signals remains competitive when surface-level regularities persist. Finally, syntactic styles also shape task-specific gains with Python favoring natural language reasoning and lower-level languages such as Java and Rust favoring math. Through our systematic framework, we aim to provide insight into how different properties of code influence reasoning and inform the design of training data for enhancing LLM reasoning capabilities.
PDF22October 8, 2025