Ejecución Simultánea a la Generación: Ocultando la Latencia de Ejecución en la Generación de Código con LLM
Executing as You Generate: Hiding Execution Latency in LLM Code Generation
April 1, 2026
Autores: Zhensu Sun, Zhihao Lin, Zhi Chen, Chengran Yang, Mingyi Zhou, Li Li, David Lo
cs.AI
Resumen
Los agentes de codificación basados en LLM actuales siguen un paradigma de ejecución en serie: el modelo primero genera el código completo y luego invoca un intérprete para ejecutarlo. Este flujo de trabajo secuencial deja al ejecutor inactivo durante la generación y al generador inactivo durante la ejecución, lo que resulta en una latencia de extremo a extremo innecesaria. Observamos que, a diferencia de los desarrolladores humanos, los LLM producen tokens de código de forma secuencial sin revisión, lo que hace posible ejecutar código mientras se está generando. Formalizamos este paradigma de ejecución paralela, modelándolo como una canalización de tres etapas de generación, detección y ejecución, y derivamos límites de latencia en forma cerrada que caracterizan su potencial de aceleración y regímenes de operación. Luego presentamos Eager, una implementación concreta que incluye fragmentación basada en AST, procesamiento por lotes dinámico con ejecución condicional e interrupción temprana por errores. Evaluamos Eager en cuatro benchmarks, siete LLM y tres entornos de ejecución. Los resultados muestran que Eager reduce la latencia de ejecución no superpuesta hasta en un 99,9% y la latencia de extremo a extremo hasta en un 55% en siete LLM y cuatro benchmarks.
English
Current LLM-based coding agents follow a serial execution paradigm: the model first generates the complete code, then invokes an interpreter to execute it. This sequential workflow leaves the executor idle during generation and the generator idle during execution, resulting in unnecessary end-to-end latency. We observe that, unlike human developers, LLMs produce code tokens sequentially without revision, making it possible to execute code as it is being generated. We formalize this parallel execution paradigm, modeling it as a three-stage pipeline of generation, detection, and execution, and derive closed-form latency bounds that characterize its speedup potential and operating regimes. We then present Eager, a concrete implementation featuring AST-based chunking, dynamic batching with gated execution, and early error interruption. We evaluate Eager across four benchmarks, seven LLMs, and three execution environments. Results show that Eager reduces the non-overlapped execution latency by up to 99.9% and the end-to-end latency by up to 55% across seven LLMs and four benchmarks.