SURGE: Over de Mogelijkheden van Grote Taalmodellen als Algemeen Inzetbare Surrogaatcode-uitvoerders
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors
February 16, 2025
Auteurs: Bohan Lyu, Siqiao Huang, Zichen Liang
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben opmerkelijke capaciteiten aangetoond in codegerelateerde taken, zoals codebegrip en codegeneratie. Echter, een even belangrijke maar onderbelichte vraag is of LLM's kunnen dienen als algemene surrogaatcode-uitvoerders, om de output en het gedrag van een programma te voorspellen zonder het daadwerkelijk uit te voeren. Om deze capaciteit systematisch te onderzoeken, introduceren we SURGE, een uitgebreide benchmark die acht belangrijke aspecten bestrijkt: meertalige programmeertaken, programmeerproblemen op competitieniveau, codeanalyse op repositoryniveau, kostbare wetenschappelijke berekeningen, algoritmen met tijdscomplexiteit, analyse van buggy code, programma's afhankelijk van specifieke compilers of uitvoeringsomgevingen, en formele wiskundige bewijsverificatie. We evalueren meerdere open-source en gepatenteerde LLM's op SURGE en voeren een schalingsstudie uit om de impact van modelgrootte en trainingsdataschaal op de nauwkeurigheid van surrogaatuitvoering te analyseren. Daarnaast categoriseren we modelvoorspellingsfouten en verkennen we mogelijke verbeteringsgebieden. Onze bevindingen geven aan dat hoewel LLM's code-uitvoerresultaten kunnen voorspellen in bepaalde gevallen, ze beperkingen vertonen in algemene surrogaatuitvoering. Deze studie biedt empirische inzichten in de haalbaarheid van het gebruik van LLM's als surrogaatcode-uitvoerders. Code en dataset zijn beschikbaar op https://github.com/Imbernoulli/SURGE.
English
Large language models (LLMs) have demonstrated remarkable capabilities in
code-related tasks, such as code understanding and code generation. However, an
equally important yet underexplored question is whether LLMs can serve as
general-purpose surrogate code executors, to predict the output and behavior of
a program without actually running it. To systematically investigate this
capability, we introduce SURGE, a comprehensive benchmark covering eight key
aspects: multi-language programming tasks, competition-level programming
problems, repository-level code analysis, high-cost scientific computing,
time-complexity-intensive algorithms, buggy code analysis, programs dependent
on specific compilers or execution environments, and formal mathematical proof
verification. We evaluate multiple open-source and proprietary LLMs on SURGE
and conduct a scaling study to analyze the impact of model size and training
data scale on surrogate execution accuracy. Additionally, we categorize model
prediction errors and explore potential areas for improvement. Our findings
indicate that while LLMs can predict code execution results in certain cases,
they exhibit limitations in general-purpose surrogate execution. This study
provides empirical insights into the feasibility of using LLMs as surrogate
code executors. Code and dataset are released at
https://github.com/Imbernoulli/SURGE.Summary
AI-Generated Summary