ChatPaper.aiChatPaper

RPG: Um Grafo de Planejamento de Repositório para Geração de Base de Código Unificada e Escalável

RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

September 19, 2025
Autores: Jane Luo, Xin Zhang, Steven Liu, Jie Wu, Yiming Huang, Yangyu Huang, Chengyu Yin, Ying Xin, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qi Chen, Scarlett Li, Mao Yang
cs.AI

Resumo

Modelos de linguagem de grande escala se destacam na geração de código em nível de função e arquivo, mas a criação de repositórios completos do zero ainda representa um desafio fundamental. Esse processo exige planejamento coerente e confiável em estágios de proposta e implementação, enquanto a linguagem natural, devido à sua ambiguidade e verbosidade, é inadequada para representar fielmente estruturas de software complexas. Para resolver isso, introduzimos o Grafo de Planejamento de Repositório (RPG), uma representação persistente que unifica o planejamento em níveis de proposta e implementação, codificando capacidades, estruturas de arquivos, fluxos de dados e funções em um único grafo. O RPG substitui a linguagem natural ambígua por um blueprint explícito, permitindo planejamento de longo prazo e geração escalável de repositórios. Com base no RPG, desenvolvemos o ZeroRepo, um framework orientado a grafos para geração de repositórios do zero. Ele opera em três estágios: planejamento em nível de proposta e refinamento em nível de implementação para construir o grafo, seguido por geração de código guiada pelo grafo com validação de testes. Para avaliar esse cenário, construímos o RepoCraft, um benchmark com seis projetos do mundo real e 1.052 tarefas. No RepoCraft, o ZeroRepo produz repositórios com uma média de quase 36K LOC, aproximadamente 3,9 vezes o melhor baseline (Claude Code) e cerca de 64 vezes outros baselines. Ele atinge 81,5% de cobertura funcional e uma taxa de aprovação de 69,7%, superando o Claude Code em 27,3 e 35,8 pontos percentuais, respectivamente. Análises adicionais mostram que o RPG modela dependências complexas, permite planejamento progressivamente mais sofisticado por meio de escalabilidade quase linear e melhora a compreensão de repositórios por LLMs, acelerando assim a localização de agentes.
English
Large language models excel at function- and file-level code generation, yet generating complete repositories from scratch remains a fundamental challenge. This process demands coherent and reliable planning across proposal- and implementation-level stages, while natural language, due to its ambiguity and verbosity, is ill-suited for faithfully representing complex software structures. To address this, we introduce the Repository Planning Graph (RPG), a persistent representation that unifies proposal- and implementation-level planning by encoding capabilities, file structures, data flows, and functions in one graph. RPG replaces ambiguous natural language with an explicit blueprint, enabling long-horizon planning and scalable repository generation. Building on RPG, we develop ZeroRepo, a graph-driven framework for repository generation from scratch. It operates in three stages: proposal-level planning and implementation-level refinement to construct the graph, followed by graph-guided code generation with test validation. To evaluate this setting, we construct RepoCraft, a benchmark of six real-world projects with 1,052 tasks. On RepoCraft, ZeroRepo produces repositories averaging nearly 36K LOC, roughly 3.9times the strongest baseline (Claude Code) and about 64times other baselines. It attains 81.5% functional coverage and a 69.7% pass rate, exceeding Claude Code by 27.3 and 35.8 percentage points, respectively. Further analysis shows that RPG models complex dependencies, enables progressively more sophisticated planning through near-linear scaling, and enhances LLM understanding of repositories, thereby accelerating agent localization.
PDF12514September 22, 2025