SURGE: Sobre el Potencial de los Modelos de Lenguaje Grandes como Ejecutores de Código Sustitutos de Propósito General

Resumen

Los modelos de lenguaje de gran tamaño (LLMs) han demostrado capacidades notables en tareas relacionadas con el código, como comprensión y generación de código. Sin embargo, una pregunta igualmente importante pero poco explorada es si los LLMs pueden servir como ejecutores de código sustitutos de propósito general, para predecir la salida y el comportamiento de un programa sin necesidad de ejecutarlo realmente. Para investigar sistemáticamente esta capacidad, presentamos SURGE, un banco de pruebas exhaustivo que abarca ocho aspectos clave: tareas de programación en múltiples lenguajes, problemas de programación de nivel de competición, análisis de código a nivel de repositorio, cómputo científico de alto costo, algoritmos intensivos en complejidad temporal, análisis de código con errores, programas dependientes de compiladores específicos o entornos de ejecución, y verificación formal de pruebas matemáticas. Evaluamos varios LLMs de código abierto y propietarios en SURGE y realizamos un estudio de escalado para analizar el impacto del tamaño del modelo y la escala de los datos de entrenamiento en la precisión de la ejecución sustituta. Además, categorizamos los errores de predicción del modelo y exploramos áreas potenciales para mejoras. Nuestros hallazgos indican que si bien los LLMs pueden predecir resultados de ejecución de código en ciertos casos, presentan limitaciones en la ejecución sustituta de propósito general. Este estudio proporciona información empírica sobre la viabilidad de utilizar LLMs como ejecutores de código sustitutos. El código y el conjunto de datos se han publicado en https://github.com/Imbernoulli/SURGE.

English

Large language models (LLMs) have demonstrated remarkable capabilities in code-related tasks, such as code understanding and code generation. However, an equally important yet underexplored question is whether LLMs can serve as general-purpose surrogate code executors, to predict the output and behavior of a program without actually running it. To systematically investigate this capability, we introduce SURGE, a comprehensive benchmark covering eight key aspects: multi-language programming tasks, competition-level programming problems, repository-level code analysis, high-cost scientific computing, time-complexity-intensive algorithms, buggy code analysis, programs dependent on specific compilers or execution environments, and formal mathematical proof verification. We evaluate multiple open-source and proprietary LLMs on SURGE and conduct a scaling study to analyze the impact of model size and training data scale on surrogate execution accuracy. Additionally, we categorize model prediction errors and explore potential areas for improvement. Our findings indicate that while LLMs can predict code execution results in certain cases, they exhibit limitations in general-purpose surrogate execution. This study provides empirical insights into the feasibility of using LLMs as surrogate code executors. Code and dataset are released at https://github.com/Imbernoulli/SURGE.

SURGE: Sobre el Potencial de los Modelos de Lenguaje Grandes como Ejecutores de Código Sustitutos de Propósito General

SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors

Resumen

Support