Замыкая цикл: универсальное представление репозиториев с помощью RPG-энкодера
Closing the Loop: Universal Repository Representation with RPG-Encoder
February 2, 2026
Авторы: Jane Luo, Chengyu Yin, Xin Zhang, Qingtao Li, Steven Liu, Yiming Huang, Jie Wu, Hao Liu, Yangyu Huang, Yu Kang, Fangkai Yang, Ying Xin, Scarlett Li
cs.AI
Аннотация
Современные агенты для работы с репозиториями сталкиваются с разрывом в логических рассуждениях из-за фрагментированных представлений, поскольку существующие методы опираются на изолированную документацию API или графы зависимостей, лишенные семантической глубины. Мы рассматриваем понимание репозитория и генерацию как взаимно обратные процессы в рамках единого цикла: генерация разворачивает замысел в реализацию, тогда как понимание сжимает реализацию обратно в замысел. Для решения этой проблемы мы предлагаем RPG-Encoder — фреймворк, который обобщает Граф Планирования Репозитория (RPG) из статического генеративного чертежа в унифицированное высокоточное представление. RPG-Encoder замыкает цикл рассуждений за счет трех механизмов: (1) Кодирование исходного кода в RPG, который сочетает извлеченные семантические признаки с зависимостями кода; (2) Инкрементальная эволюция топологии для разделения затрат на поддержку и масштаба репозитория, что снижает нагрузку на 95,7%; и (3) Функционирование в качестве унифицированного интерфейса для навигации с учетом структуры. В ходе оценки RPG-Encoder демонстрирует наилучшие в своем классе результаты по пониманию репозиториев на SWE-bench Verified с показателем 93,7% Acc@5 и превосходит лучший базовый метод более чем на 10% на SWE-bench Live Lite. Эти результаты подчеркивают нашу превосходную точность детальной локализации в сложных кодобазах. Кроме того, достигается 98,5% покрытия реконструкции на RepoCraft, что подтверждает способность RPG с высокой точностью отражать исходную кодобазу и замыкать цикл между замыслом и реализацией.
English
Current repository agents encounter a reasoning disconnect due to fragmented representations, as existing methods rely on isolated API documentation or dependency graphs that lack semantic depth. We consider repository comprehension and generation to be inverse processes within a unified cycle: generation expands intent into implementation, while comprehension compresses implementation back into intent. To address this, we propose RPG-Encoder, a framework that generalizes the Repository Planning Graph (RPG) from a static generative blueprint into a unified, high-fidelity representation. RPG-Encoder closes the reasoning loop through three mechanisms: (1) Encoding raw code into the RPG that combines lifted semantic features with code dependencies; (2) Evolving the topology incrementally to decouple maintenance costs from repository scale, reducing overhead by 95.7%; and (3) Operating as a unified interface for structure-aware navigation. In evaluations, RPG-Encoder establishes state-of-the-art repository understanding on SWE-bench Verified with 93.7% Acc@5 and exceeds the best baseline by over 10% on SWE-bench Live Lite. These results highlight our superior fine-grained localization accuracy in complex codebases. Furthermore, it achieves 98.5% reconstruction coverage on RepoCraft, confirming RPG's high-fidelity capacity to mirror the original codebase and closing the loop between intent and implementation.