再構築による理解:大規模言語モデル事前学習のためのソフトウェア開発プロセスの逆転
Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining
March 11, 2026
著者: Zhiyuan Zeng, Yichi Zhang, Yong Shan, Kai Hua, Siyuan Fang, Zhaiyu Liu, Jiaheng Liu, Haozhe Wang, Yining Zheng, Ming Ding, Ke Shen, Ge Zhang, Wenhao Huang, Xipeng Qiu
cs.AI
要旨
大規模言語モデル(LLM)はコード生成において顕著な成功を収めているが、複雑なソフトウェア工学に必要とされる深遠で長期的な推論には依然として苦戦することが多い。我々はこの限界を、標準的な事前学習データの性質に起因すると考える。すなわち、静的なソフトウェアリポジトリは、複雑な知的プロセスの最終状態のみを表現しており、中間段階の計画、デバッグ、反復的な改良という過程を抽象化してしまっている。この隔たりを埋めるため、我々は「再構成による理解」という新たなパラダイムを提案する。静的なリポジトリの背後に潜むエージェント的行動軌跡(計画、推論、デバッグのステップ)をリバースエンジニアリングすることで、生のコード単体よりもはるかに豊富な教師信号が得られると仮説を立てる。
これを具体化するため、マルチエージェントシミュレーションを用いてこれらの軌跡を合成するフレームワークを導入する。このプロセスは、ソースリポジトリの構造的現実(依存関係グラフやファイル階層など)に基づいており、忠実性を保証する。さらに、合成データの論理的厳密性を保証するため、検索ベースの最適化手法を採用し、正解コードの尤度を最大化するように連鎖思考(Chain-of-Thought)推論を反復的に洗練させる。実証実験の結果、これらの再構成された軌跡による継続的な事前学習が、Llama-3-8Bの性能を、長文理解、コーディング能力、エージェント機能といった多様なベンチマークにおいて大幅に向上させることが示された。
English
While Large Language Models (LLMs) have achieved remarkable success in code generation, they often struggle with the deep, long-horizon reasoning required for complex software engineering. We attribute this limitation to the nature of standard pre-training data: static software repositories represent only the terminal state of an intricate intellectual process, abstracting away the intermediate planning, debugging, and iterative refinement. To bridge this gap, we propose a novel paradigm: understanding via reconstruction. We hypothesize that reverse-engineering the latent agentic trajectories -- the planning, reasoning, and debugging steps -- behind static repositories provides a far richer supervision signal than raw code alone. To operationalize this, we introduce a framework that synthesizes these trajectories using a multi-agent simulation. This process is grounded in the structural realities of the source repositories (e.g., dependency graphs and file hierarchies) to ensure fidelity. Furthermore, to guarantee the logical rigor of the synthetic data, we employ a search-based optimization technique that iteratively refines the Chain-of-Thought (CoT) reasoning to maximize the likelihood of the ground-truth code. Empirical results demonstrate that continuous pre-training on these reconstructed trajectories significantly enhances Llama-3-8B's performance across diverse benchmarks, including long-context understanding, coding proficiency, and agentic capabilities.