Comprensión mediante Reconstrucción: Invertir el Proceso de Desarrollo de Software para el Preentrenamiento de LLM

Resumen

Si bien los modelos de lenguaje grande (LLM) han logrado un éxito notable en la generación de código, a menudo tienen dificultades con el razonamiento profundo y de largo alcance requerido para la ingeniería de software compleja. Atribuimos esta limitación a la naturaleza de los datos estándar de pre-entrenamiento: los repositorios de software estáticos representan únicamente el estado terminal de un intrincado proceso intelectual, abstraendo la planificación intermedia, la depuración y el refinamiento iterativo. Para cerrar esta brecha, proponemos un paradigma novedoso: la comprensión mediante la reconstrucción. Planteamos la hipótesis de que la ingeniería inversa de las trayectorias agentes latentes —los pasos de planificación, razonamiento y depuración— detrás de los repositorios estáticos proporciona una señal de supervisión mucho más rica que el código crudo por sí solo. Para operacionalizar esto, introducimos un marco que sintetiza estas trayectorias utilizando una simulación multi-agente. Este proceso se basa en las realidades estructurales de los repositorios fuente (por ejemplo, grafos de dependencias y jerarquías de archivos) para garantizar fidelidad. Además, para asegurar el rigor lógico de los datos sintéticos, empleamos una técnica de optimización basada en búsqueda que refina iterativamente el razonamiento en cadena de pensamiento (CoT) para maximizar la verosimilitud del código de referencia. Los resultados empíricos demuestran que el pre-entrenamiento continuo en estas trayectorias reconstruidas mejora significativamente el rendimiento de Llama-3-8B en diversos puntos de referencia, incluyendo la comprensión de contexto largo, la competencia en codificación y las capacidades agentes.

English

While Large Language Models (LLMs) have achieved remarkable success in code generation, they often struggle with the deep, long-horizon reasoning required for complex software engineering. We attribute this limitation to the nature of standard pre-training data: static software repositories represent only the terminal state of an intricate intellectual process, abstracting away the intermediate planning, debugging, and iterative refinement. To bridge this gap, we propose a novel paradigm: understanding via reconstruction. We hypothesize that reverse-engineering the latent agentic trajectories -- the planning, reasoning, and debugging steps -- behind static repositories provides a far richer supervision signal than raw code alone. To operationalize this, we introduce a framework that synthesizes these trajectories using a multi-agent simulation. This process is grounded in the structural realities of the source repositories (e.g., dependency graphs and file hierarchies) to ensure fidelity. Furthermore, to guarantee the logical rigor of the synthetic data, we employ a search-based optimization technique that iteratively refines the Chain-of-Thought (CoT) reasoning to maximize the likelihood of the ground-truth code. Empirical results demonstrate that continuous pre-training on these reconstructed trajectories significantly enhances Llama-3-8B's performance across diverse benchmarks, including long-context understanding, coding proficiency, and agentic capabilities.

Comprensión mediante Reconstrucción: Invertir el Proceso de Desarrollo de Software para el Preentrenamiento de LLM

Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining

Resumen

Support