Симуляция самовыполнения улучшает кодирующие модели

Аннотация

Перспективным направлением исследований, позволяющим большим языковым моделям (LLM) генерировать стабильно корректный код, является решение проблемы их неспособности адекватно оценивать выполнение программ, особенно для сгенерированного ими кода. В данной работе мы демонстрируем, что кодогенерирующие LLM можно обучить пошагово симулировать выполнение программ, и что эту способность можно использовать для повышения эффективности решения задач по спортивному программированию. Наш подход сочетает контролируемое тонкое обучение на естественно-языковых трассировках выполнения — текстовых объяснениях, основанных на реальном выполнении, — с обучением с подкреплением с использованием проверяемых вознаграждений. Мы вводим две взаимодополняющие цели: предсказание вывода по заданному коду и входным данным, а также решение задач по спортивному программированию с использованием либо эталонной, либо самостоятельно предсказанной обратной связи по выполнению. Эти цели позволяют моделям выполнять самопроверку нескольких кандидатных решений и итеративное самокорректирование путем симуляции тестового выполнения. На нескольких наборах задач по спортивному программированию наш метод обеспечивает стабильное улучшение по сравнению со стандартными подходами к рассуждению. Мы также представляем результаты абляционных исследований и анализ, чтобы прояснить роль симуляции выполнения и её ограничения.

English

A promising research direction in enabling LLMs to generate consistently correct code involves addressing their inability to properly estimate program execution, particularly for code they generate. In this work, we demonstrate that Code LLMs can be trained to simulate program execution in a step-by-step manner and that this capability can be leveraged to improve competitive programming performance. Our approach combines supervised fine-tuning on natural language execution traces, textual explanations grounded in true execution, with reinforcement learning using verifiable rewards. We introduce two complementary objectives: output prediction given code and inputs, and solving competitive programming tasks with either ground-truth or self-predicted execution feedback. These objectives enable models to perform self-verification over multiple candidate solutions, and iterative self-fixing by simulating test execution. Across multiple competitive programming benchmarks, our method yields consistent improvements over standard reasoning approaches. We further present ablations and analysis to elucidate the role of execution simulation and its limitations.

Симуляция самовыполнения улучшает кодирующие модели

Self-Execution Simulation Improves Coding Models

Аннотация

Support