SURGE: Über das Potenzial großer Sprachmodelle als universelle Ersatzcodeausführer

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in codebezogenen Aufgaben wie Code-Verständnis und Code-Generierung gezeigt. Eine ebenso wichtige, jedoch noch wenig erforschte Frage ist, ob LLMs als allgemeine Ersatz-Codeausführer dienen können, um die Ausgabe und das Verhalten eines Programms vorherzusagen, ohne es tatsächlich auszuführen. Um diese Fähigkeit systematisch zu untersuchen, stellen wir SURGE vor, einen umfassenden Benchmark, der acht Schlüsselaspekte abdeckt: mehrsprachige Programmieraufgaben, Programmierprobleme auf Wettbewerbsniveau, Codeanalyse auf Repository-Ebene, aufwändige wissenschaftliche Berechnungen, zeitkomplexe Algorithmen, Analyse fehlerhaften Codes, Programme, die von bestimmten Compilern oder Ausführungsumgebungen abhängig sind, und formale mathematische Beweisverifikation. Wir bewerten mehrere Open-Source- und proprietäre LLMs auf SURGE und führen eine Skalierungsstudie durch, um den Einfluss von Modellgröße und Trainingsdatenumfang auf die Genauigkeit der Ersatzausführung zu analysieren. Darüber hinaus kategorisieren wir Modellvorhersagefehler und erkunden potenzielle Verbesserungsbereiche. Unsere Ergebnisse deuten darauf hin, dass LLMs zwar in bestimmten Fällen Codeausführungsergebnisse vorhersagen können, jedoch Grenzen bei der allgemeinen Ersatzausführung aufweisen. Diese Studie liefert empirische Erkenntnisse zur Machbarkeit der Verwendung von LLMs als Ersatz-Codeausführer. Der Code und das Datenset sind unter https://github.com/Imbernoulli/SURGE verfügbar.

English

Large language models (LLMs) have demonstrated remarkable capabilities in code-related tasks, such as code understanding and code generation. However, an equally important yet underexplored question is whether LLMs can serve as general-purpose surrogate code executors, to predict the output and behavior of a program without actually running it. To systematically investigate this capability, we introduce SURGE, a comprehensive benchmark covering eight key aspects: multi-language programming tasks, competition-level programming problems, repository-level code analysis, high-cost scientific computing, time-complexity-intensive algorithms, buggy code analysis, programs dependent on specific compilers or execution environments, and formal mathematical proof verification. We evaluate multiple open-source and proprietary LLMs on SURGE and conduct a scaling study to analyze the impact of model size and training data scale on surrogate execution accuracy. Additionally, we categorize model prediction errors and explore potential areas for improvement. Our findings indicate that while LLMs can predict code execution results in certain cases, they exhibit limitations in general-purpose surrogate execution. This study provides empirical insights into the feasibility of using LLMs as surrogate code executors. Code and dataset are released at https://github.com/Imbernoulli/SURGE.

SURGE: Über das Potenzial großer Sprachmodelle als universelle Ersatzcodeausführer

SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors

papers.abstract

Support