Понимание через реконструкцию: обращение процесса разработки программного обеспечения для предварительного обучения больших языковых моделей

Аннотация

Хотя большие языковые модели (LLМ) достигли значительных успехов в генерации кода, они часто испытывают трудности с глубокими, долгосрочными рассуждениями, необходимыми для сложной разработки программного обеспечения. Мы объясняем это ограничение природой стандартных данных предварительного обучения: статические репозитории программного кода представляют лишь конечное состояние сложного интеллектуального процесса, абстрагируясь от промежуточного планирования, отладки и итерационного улучшения. Чтобы преодолеть этот разрыв, мы предлагаем новую парадигму: понимание через реконструкцию. Мы выдвигаем гипотезу, что реверс-инжиниринг скрытых агентных траекторий — шагов планирования, рассуждений и отладки, — стоящих за статическими репозиториями, дает гораздо более богакий сигнал обучения, чем просто исходный код. Для реализации этого мы представляем фреймворк, который синтезирует эти траектории с использованием мульти-агентной симуляции. Этот процесс основан на структурных особенностях исходных репозиториев (например, графах зависимостей и иерархиях файлов) для обеспечения достоверности. Кроме того, для гарантии логической строгости синтетических данных мы применяем поисковую методику оптимизации, которая итеративно улучшает цепочку рассуждений (Chain-of-Thought, CoT), чтобы максимизировать правдоподобие эталонного кода. Экспериментальные результаты показывают, что непрерывное предварительное обучение на этих реконструированных траекториях значительно повышает производительность модели Llama-3-8B в различных тестах, включая понимание длинного контекста, proficiency в программировании и агентные возможности.

English

While Large Language Models (LLMs) have achieved remarkable success in code generation, they often struggle with the deep, long-horizon reasoning required for complex software engineering. We attribute this limitation to the nature of standard pre-training data: static software repositories represent only the terminal state of an intricate intellectual process, abstracting away the intermediate planning, debugging, and iterative refinement. To bridge this gap, we propose a novel paradigm: understanding via reconstruction. We hypothesize that reverse-engineering the latent agentic trajectories -- the planning, reasoning, and debugging steps -- behind static repositories provides a far richer supervision signal than raw code alone. To operationalize this, we introduce a framework that synthesizes these trajectories using a multi-agent simulation. This process is grounded in the structural realities of the source repositories (e.g., dependency graphs and file hierarchies) to ensure fidelity. Furthermore, to guarantee the logical rigor of the synthetic data, we employ a search-based optimization technique that iteratively refines the Chain-of-Thought (CoT) reasoning to maximize the likelihood of the ground-truth code. Empirical results demonstrate that continuous pre-training on these reconstructed trajectories significantly enhances Llama-3-8B's performance across diverse benchmarks, including long-context understanding, coding proficiency, and agentic capabilities.

Понимание через реконструкцию: обращение процесса разработки программного обеспечения для предварительного обучения больших языковых моделей

Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining

Аннотация

Support