Comprendere attraverso la Ricostruzione: Invertire il Processo di Sviluppo Software per il Pretraining degli LLM

Abstract

Sebbene i Large Language Model (LLM) abbiano ottenuto un notevole successo nella generazione di codice, spesso incontrano difficoltà con il ragionamento profondo e a lungo termine richiesto per l'ingegneria del software complessa. Attribuiamo questa limitazione alla natura dei dati standard di pre-addestramento: i repository software statici rappresentano solo lo stato terminale di un intricato processo intellettuale, astraendo via la pianificazione intermedia, il debugging e l'affinamento iterativo. Per colmare questa lacuna, proponiamo un nuovo paradigma: la comprensione tramite ricostruzione. Ipotesizziamo che la reverse engineering delle traiettorie agenti latenti – i passi di pianificazione, ragionamento e debugging – alla base dei repository statici fornisca un segnale di supervisione di gran lunga più ricco rispetto al solo codice grezzo. Per implementare ciò, introduciamo un framework che sintetizza queste traiettorie utilizzando una simulazione multi-agente. Questo processo è ancorato alle realtà strutturali dei repository sorgente (ad esempio, grafi delle dipendenze e gerarchie di file) per garantire la fedeltà. Inoltre, per assicurare il rigore logico dei dati sintetici, impieghiamo una tecnica di ottimizzazione basata sulla ricerca che affina iterativamente il ragionamento a Catena di Pensiero (CoT) per massimizzare la verosimiglianza del codice ground-truth. I risultati empirici dimostrano che un pre-addestramento continuo su queste traiettorie ricostruite migliora significativamente le prestazioni di Llama-3-8B su vari benchmark, inclusi la comprensione di contesti lunghi, la competenza nella programmazione e le capacità agentive.

English

While Large Language Models (LLMs) have achieved remarkable success in code generation, they often struggle with the deep, long-horizon reasoning required for complex software engineering. We attribute this limitation to the nature of standard pre-training data: static software repositories represent only the terminal state of an intricate intellectual process, abstracting away the intermediate planning, debugging, and iterative refinement. To bridge this gap, we propose a novel paradigm: understanding via reconstruction. We hypothesize that reverse-engineering the latent agentic trajectories -- the planning, reasoning, and debugging steps -- behind static repositories provides a far richer supervision signal than raw code alone. To operationalize this, we introduce a framework that synthesizes these trajectories using a multi-agent simulation. This process is grounded in the structural realities of the source repositories (e.g., dependency graphs and file hierarchies) to ensure fidelity. Furthermore, to guarantee the logical rigor of the synthetic data, we employ a search-based optimization technique that iteratively refines the Chain-of-Thought (CoT) reasoning to maximize the likelihood of the ground-truth code. Empirical results demonstrate that continuous pre-training on these reconstructed trajectories significantly enhances Llama-3-8B's performance across diverse benchmarks, including long-context understanding, coding proficiency, and agentic capabilities.

Comprendere attraverso la Ricostruzione: Invertire il Processo di Sviluppo Software per il Pretraining degli LLM

Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining

Abstract

Support