Fechando o Ciclo: Representação Universal de Repositórios com o Codificador RPG
Closing the Loop: Universal Repository Representation with RPG-Encoder
February 2, 2026
Autores: Jane Luo, Chengyu Yin, Xin Zhang, Qingtao Li, Steven Liu, Yiming Huang, Jie Wu, Hao Liu, Yangyu Huang, Yu Kang, Fangkai Yang, Ying Xin, Scarlett Li
cs.AI
Resumo
Os agentes de repositório atuais enfrentam uma desconexão de raciocínio devido a representações fragmentadas, uma vez que os métodos existentes dependem de documentação de API isolada ou grafos de dependência que carecem de profundidade semântica. Consideramos a compreensão e geração de repositórios como processos inversos dentro de um ciclo unificado: a geração expande a intenção em implementação, enquanto a compreensão comprime a implementação de volta em intenção. Para resolver isso, propomos o RPG-Encoder, uma estrutura que generaliza o Grafo de Planejamento de Repositório (RPG) de um blueprint generativo estático para uma representação unificada de alta fidelidade. O RPG-Encoder fecha o ciclo de raciocínio através de três mecanismos: (1) Codificação de código bruto no RPG que combina características semânticas elevadas com dependências de código; (2) Evolução incremental da topologia para desacoplar custos de manutenção da escala do repositório, reduzindo sobrecarga em 95,7%; e (3) Operação como uma interface unificada para navegação com consciência estrutural. Nas avaliações, o RPG-Encoder estabelece o estado da arte em compreensão de repositórios no SWE-bench Verified com 93,7% Acc@5 e supera a melhor baseline em mais de 10% no SWE-bench Live Lite. Esses resultados destacam nossa precisão superior de localização em granularidade fina em bases de código complexas. Além disso, atinge 98,5% de cobertura de reconstrução no RepoCraft, confirmando a capacidade de alta fidelidade do RPG em espelhar a base de código original e fechando o ciclo entre intenção e implementação.
English
Current repository agents encounter a reasoning disconnect due to fragmented representations, as existing methods rely on isolated API documentation or dependency graphs that lack semantic depth. We consider repository comprehension and generation to be inverse processes within a unified cycle: generation expands intent into implementation, while comprehension compresses implementation back into intent. To address this, we propose RPG-Encoder, a framework that generalizes the Repository Planning Graph (RPG) from a static generative blueprint into a unified, high-fidelity representation. RPG-Encoder closes the reasoning loop through three mechanisms: (1) Encoding raw code into the RPG that combines lifted semantic features with code dependencies; (2) Evolving the topology incrementally to decouple maintenance costs from repository scale, reducing overhead by 95.7%; and (3) Operating as a unified interface for structure-aware navigation. In evaluations, RPG-Encoder establishes state-of-the-art repository understanding on SWE-bench Verified with 93.7% Acc@5 and exceeds the best baseline by over 10% on SWE-bench Live Lite. These results highlight our superior fine-grained localization accuracy in complex codebases. Furthermore, it achieves 98.5% reconstruction coverage on RepoCraft, confirming RPG's high-fidelity capacity to mirror the original codebase and closing the loop between intent and implementation.