RPG: Um Grafo de Planejamento de Repositório para Geração de Base de Código Unificada e Escalável
RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation
September 19, 2025
Autores: Jane Luo, Xin Zhang, Steven Liu, Jie Wu, Yiming Huang, Yangyu Huang, Chengyu Yin, Ying Xin, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qi Chen, Scarlett Li, Mao Yang
cs.AI
Resumo
Modelos de linguagem de grande escala se destacam na geração de código em nível de função e arquivo, mas a criação de repositórios completos do zero ainda representa um desafio fundamental. Esse processo exige planejamento coerente e confiável em estágios de proposta e implementação, enquanto a linguagem natural, devido à sua ambiguidade e verbosidade, é inadequada para representar fielmente estruturas de software complexas. Para resolver isso, introduzimos o Grafo de Planejamento de Repositório (RPG), uma representação persistente que unifica o planejamento em níveis de proposta e implementação, codificando capacidades, estruturas de arquivos, fluxos de dados e funções em um único grafo. O RPG substitui a linguagem natural ambígua por um blueprint explícito, permitindo planejamento de longo prazo e geração escalável de repositórios. Com base no RPG, desenvolvemos o ZeroRepo, um framework orientado a grafos para geração de repositórios do zero. Ele opera em três estágios: planejamento em nível de proposta e refinamento em nível de implementação para construir o grafo, seguido por geração de código guiada pelo grafo com validação de testes. Para avaliar esse cenário, construímos o RepoCraft, um benchmark com seis projetos do mundo real e 1.052 tarefas. No RepoCraft, o ZeroRepo produz repositórios com uma média de quase 36K LOC, aproximadamente 3,9 vezes o melhor baseline (Claude Code) e cerca de 64 vezes outros baselines. Ele atinge 81,5% de cobertura funcional e uma taxa de aprovação de 69,7%, superando o Claude Code em 27,3 e 35,8 pontos percentuais, respectivamente. Análises adicionais mostram que o RPG modela dependências complexas, permite planejamento progressivamente mais sofisticado por meio de escalabilidade quase linear e melhora a compreensão de repositórios por LLMs, acelerando assim a localização de agentes.
English
Large language models excel at function- and file-level code generation, yet
generating complete repositories from scratch remains a fundamental challenge.
This process demands coherent and reliable planning across proposal- and
implementation-level stages, while natural language, due to its ambiguity and
verbosity, is ill-suited for faithfully representing complex software
structures. To address this, we introduce the Repository Planning Graph (RPG),
a persistent representation that unifies proposal- and implementation-level
planning by encoding capabilities, file structures, data flows, and functions
in one graph. RPG replaces ambiguous natural language with an explicit
blueprint, enabling long-horizon planning and scalable repository generation.
Building on RPG, we develop ZeroRepo, a graph-driven framework for repository
generation from scratch. It operates in three stages: proposal-level planning
and implementation-level refinement to construct the graph, followed by
graph-guided code generation with test validation. To evaluate this setting, we
construct RepoCraft, a benchmark of six real-world projects with 1,052 tasks.
On RepoCraft, ZeroRepo produces repositories averaging nearly 36K LOC, roughly
3.9times the strongest baseline (Claude Code) and about 64times other
baselines. It attains 81.5% functional coverage and a 69.7% pass rate,
exceeding Claude Code by 27.3 and 35.8 percentage points, respectively. Further
analysis shows that RPG models complex dependencies, enables progressively more
sophisticated planning through near-linear scaling, and enhances LLM
understanding of repositories, thereby accelerating agent localization.