Simulação de Autoexecução Melhora Modelos de Codificação

Resumo

Uma direção de pesquisa promissora para capacitar LLMs a gerar código consistentemente correto envolve abordar sua incapacidade de estimar adequadamente a execução de programas, particularmente para códigos que eles próprios geram. Neste trabalho, demonstramos que Code LLMs podem ser treinados para simular a execução de programas de maneira passo a passo e que essa capacidade pode ser aproveitada para melhorar o desempenho em programação competitiva. Nossa abordagem combina ajuste fino supervisionado em traços de execução em linguagem natural - explicações textuais fundamentadas na execução real - com aprendizado por reforço usando recompensas verificáveis. Introduzimos dois objetivos complementares: a previsão da saída dado o código e as entradas, e a resolução de tarefas de programação competitiva com feedback de execução baseado em verdades fundamentais ou auto-preditivas. Esses objetivos permitem que os modelos realizem autoverificação sobre múltiplas soluções candidatas e autocorreção iterativa através da simulação da execução de testes. Em vários benchmarks de programação competitiva, nosso método produz melhorias consistentes em relação às abordagens de raciocínio padrão. Apresentamos ainda ablations e análises para elucidar o papel da simulação de execução e suas limitações.

English

A promising research direction in enabling LLMs to generate consistently correct code involves addressing their inability to properly estimate program execution, particularly for code they generate. In this work, we demonstrate that Code LLMs can be trained to simulate program execution in a step-by-step manner and that this capability can be leveraged to improve competitive programming performance. Our approach combines supervised fine-tuning on natural language execution traces, textual explanations grounded in true execution, with reinforcement learning using verifiable rewards. We introduce two complementary objectives: output prediction given code and inputs, and solving competitive programming tasks with either ground-truth or self-predicted execution feedback. These objectives enable models to perform self-verification over multiple candidate solutions, and iterative self-fixing by simulating test execution. Across multiple competitive programming benchmarks, our method yields consistent improvements over standard reasoning approaches. We further present ablations and analysis to elucidate the role of execution simulation and its limitations.

Simulação de Autoexecução Melhora Modelos de Codificação

Self-Execution Simulation Improves Coding Models

Resumo

Support