Compréhension par Reconstruction : Inverser le Processus de Développement Logiciel pour le Pré-entraînement des LLM

Résumé

Si les grands modèles de langage (LLM) ont obtenu des succès remarquables en génération de code, ils peinent souvent avec le raisonnement profond et à long terme requis pour l'ingénierie logicielle complexe. Nous attribuons cette limitation à la nature des données standard de pré-entraînement : les dépôts de logiciels statiques ne représentent que l'état final d'un processus intellectuel complexe, occultant la planification intermédiaire, le débogage et l'affinement itératif. Pour combler cette lacune, nous proposons un nouveau paradigme : la compréhension par reconstruction. Nous émettons l'hypothèse que la rétro-ingénierie des trajectoires agentielles latentes – les étapes de planification, de raisonnement et de débogage – sous-jacentes aux dépôts statiques fournit un signal de supervision bien plus riche que le code brut seul. Pour opérationnaliser cette idée, nous introduisons un cadre qui synthétise ces trajectoires à l'aide d'une simulation multi-agent. Ce processus s'ancre dans les réalités structurelles des dépôts sources (par exemple, les graphes de dépendances et les hiérarchies de fichiers) pour garantir la fidélité. De plus, pour assurer la rigueur logique des données synthétiques, nous utilisons une technique d'optimisation par recherche qui affine itérativement le raisonnement en chaîne de pensée (Chain-of-Thought) pour maximiser la vraisemblance du code de référence. Les résultats empiriques démontrent qu'un pré-entraînement continu sur ces trajectoires reconstruites améliore significativement les performances de Llama-3-8B sur divers benchmarks, incluant la compréhension de contexte long, la compétence en programmation et les capacités agentielles.

English

While Large Language Models (LLMs) have achieved remarkable success in code generation, they often struggle with the deep, long-horizon reasoning required for complex software engineering. We attribute this limitation to the nature of standard pre-training data: static software repositories represent only the terminal state of an intricate intellectual process, abstracting away the intermediate planning, debugging, and iterative refinement. To bridge this gap, we propose a novel paradigm: understanding via reconstruction. We hypothesize that reverse-engineering the latent agentic trajectories -- the planning, reasoning, and debugging steps -- behind static repositories provides a far richer supervision signal than raw code alone. To operationalize this, we introduce a framework that synthesizes these trajectories using a multi-agent simulation. This process is grounded in the structural realities of the source repositories (e.g., dependency graphs and file hierarchies) to ensure fidelity. Furthermore, to guarantee the logical rigor of the synthetic data, we employ a search-based optimization technique that iteratively refines the Chain-of-Thought (CoT) reasoning to maximize the likelihood of the ground-truth code. Empirical results demonstrate that continuous pre-training on these reconstructed trajectories significantly enhances Llama-3-8B's performance across diverse benchmarks, including long-context understanding, coding proficiency, and agentic capabilities.

Compréhension par Reconstruction : Inverser le Processus de Développement Logiciel pour le Pré-entraînement des LLM

Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining

Résumé

Support