Verstehen durch Rekonstruktion: Umkehrung des Softwareentwicklungsprozesses für das Vortraining von LLMs

Zusammenfassung

Während Large Language Models (LLMs) bemerkenswerte Erfolge in der Code-Generierung erzielt haben, stoßen sie oft an ihre Grenzen, wenn es um tiefgreifendes, langfristiges Reasoning für komplexe Softwareentwicklung geht. Wir führen diese Einschränkung auf die Natur standardmäßiger Vortrainingsdaten zurück: Statische Software-Repositories repräsentieren nur den Endzustand eines komplexen intellektuellen Prozesses und abstrahieren die Zwischenschritte der Planung, Fehlersuche und iterativen Verfeinerung. Um diese Lücke zu schließen, schlagen wir ein neuartiges Paradigma vor: Verstehen durch Rekonstruktion. Wir stellen die Hypothese auf, dass das Reverse-Engineering der latenten agentenbasierten Trajektorien – der Planungs-, Reasoning- und Debugging-Schritte – hinter statischen Repositories ein wesentlich reichhaltigeres Trainingssignal liefert als Rohcode allein. Um dies umzusetzen, führen wir ein Framework ein, das diese Trajektorien mittels einer Multi-Agenten-Simulation synthetisiert. Dieser Prozess ist in den strukturellen Gegebenheiten der Quell-Repositories (z.B. Abhängigkeitsgraphen und Dateihierarchien) verankert, um die Treue zu gewährleisten. Darüber hinaus setzen wir eine suchbasierte Optimierungstechnik ein, um die logische Strenge der synthetischen Daten zu garantieren; diese verfeinert iterativ die Chain-of-Thought (CoT)-Argumentation, um die Wahrscheinlichkeit des Ground-Truth-Codes zu maximieren. Empirische Ergebnisse zeigen, dass kontinuierliches Vortraining auf diesen rekonstruierten Trajektorien die Leistung von Llama-3-8B über diverse Benchmarks hinweg signifikant steigert, einschließlich Langzeitkontextverständnis, Programmierkompetenz und agentenbasierter Fähigkeiten.

English

While Large Language Models (LLMs) have achieved remarkable success in code generation, they often struggle with the deep, long-horizon reasoning required for complex software engineering. We attribute this limitation to the nature of standard pre-training data: static software repositories represent only the terminal state of an intricate intellectual process, abstracting away the intermediate planning, debugging, and iterative refinement. To bridge this gap, we propose a novel paradigm: understanding via reconstruction. We hypothesize that reverse-engineering the latent agentic trajectories -- the planning, reasoning, and debugging steps -- behind static repositories provides a far richer supervision signal than raw code alone. To operationalize this, we introduce a framework that synthesizes these trajectories using a multi-agent simulation. This process is grounded in the structural realities of the source repositories (e.g., dependency graphs and file hierarchies) to ensure fidelity. Furthermore, to guarantee the logical rigor of the synthetic data, we employ a search-based optimization technique that iteratively refines the Chain-of-Thought (CoT) reasoning to maximize the likelihood of the ground-truth code. Empirical results demonstrate that continuous pre-training on these reconstructed trajectories significantly enhances Llama-3-8B's performance across diverse benchmarks, including long-context understanding, coding proficiency, and agentic capabilities.

Verstehen durch Rekonstruktion: Umkehrung des Softwareentwicklungsprozesses für das Vortraining von LLMs

Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining

Zusammenfassung

Support