Cerrando el Ciclo: Representación Universal de Repositorios con el Codificador RPG
Closing the Loop: Universal Repository Representation with RPG-Encoder
February 2, 2026
Autores: Jane Luo, Chengyu Yin, Xin Zhang, Qingtao Li, Steven Liu, Yiming Huang, Jie Wu, Hao Liu, Yangyu Huang, Yu Kang, Fangkai Yang, Ying Xin, Scarlett Li
cs.AI
Resumen
Los agentes de repositorio actuales experimentan una desconexión de razonamiento debido a representaciones fragmentadas, ya que los métodos existentes dependen de documentación API aislada o grafos de dependencia que carecen de profundidad semántica. Consideramos la comprensión y generación de repositorios como procesos inversos dentro de un ciclo unificado: la generación expande la intención en implementación, mientras que la comprensión comprime la implementación de vuelta a la intención. Para abordar esto, proponemos RPG-Encoder, un marco que generaliza el Grafo de Planificación de Repositorio (RPG) de un plano generativo estático a una representación unificada de alta fidelidad. RPG-Encoder cierra el ciclo de razonamiento mediante tres mecanismos: (1) Codificación de código sin procesar en el RPG que combina características semánticas elevadas con dependencias de código; (2) Evolución incremental de la topología para desacoplar los costos de mantenimiento de la escala del repositorio, reduciendo la sobrecarga en un 95.7%; y (3) Operación como interfaz unificada para navegación consciente de la estructura. En evaluaciones, RPG-Encoder establece el estado del arte en comprensión de repositorios en SWE-bench Verified con 93.7% Acc@5 y supera la mejor línea base en más de un 10% en SWE-bench Live Lite. Estos resultados destacan nuestra precisión superior de localización granular en bases de código complejas. Además, logra un 98.5% de cobertura de reconstrucción en RepoCraft, confirmando la capacidad de alta fidelidad del RPG para reflejar la base de código original y cerrando el ciclo entre intención e implementación.
English
Current repository agents encounter a reasoning disconnect due to fragmented representations, as existing methods rely on isolated API documentation or dependency graphs that lack semantic depth. We consider repository comprehension and generation to be inverse processes within a unified cycle: generation expands intent into implementation, while comprehension compresses implementation back into intent. To address this, we propose RPG-Encoder, a framework that generalizes the Repository Planning Graph (RPG) from a static generative blueprint into a unified, high-fidelity representation. RPG-Encoder closes the reasoning loop through three mechanisms: (1) Encoding raw code into the RPG that combines lifted semantic features with code dependencies; (2) Evolving the topology incrementally to decouple maintenance costs from repository scale, reducing overhead by 95.7%; and (3) Operating as a unified interface for structure-aware navigation. In evaluations, RPG-Encoder establishes state-of-the-art repository understanding on SWE-bench Verified with 93.7% Acc@5 and exceeds the best baseline by over 10% on SWE-bench Live Lite. These results highlight our superior fine-grained localization accuracy in complex codebases. Furthermore, it achieves 98.5% reconstruction coverage on RepoCraft, confirming RPG's high-fidelity capacity to mirror the original codebase and closing the loop between intent and implementation.