Синергия человека и ИИ в агентном рецензировании кода
Human-AI Synergy in Agentic Code Review
March 16, 2026
Авторы: Suzhen Zhong, Shayan Noei, Ying Zou, Bram Adams
cs.AI
Аннотация
Анализ кода (code review) — это критически важная практика в разработке программного обеспечения, в рамках которой разработчики проверяют изменения кода перед их интеграцией для обеспечения качества, выявления дефектов и повышения сопровождаемости. В последние годы в процесс код-ревью все активнее интегрируются ИИ-агенты, способные понимать контекст кода, планировать действия по проверке и взаимодействовать со средами разработки. Однако существует ограниченное количество эмпирических данных, позволяющих сравнить эффективность ИИ-агентов и людей-рецензентов в совместных рабочих процессах. Чтобы восполнить этот пробел, мы провели масштабный эмпирический анализ 278 790 обсуждений код-ревью в 300 проектах с открытым исходным кодом на GitHub. В нашем исследовании мы стремимся сравнить различия в обратной связи, предоставляемой людьми-рецензентами и ИИ-агентами. Мы исследуем модели коллаборации между человеком и ИИ в обсуждениях ревью, чтобы понять, как взаимодействие влияет на результаты проверки. Кроме того, мы анализируем, насколько часто предложения по коду, сделанные людьми-рецензентами и ИИ-агентами, принимаются в кодобазу, и как принятые предложения влияют на качество кода. Мы выяснили, что люди-рецензенты предоставляют более развернутую обратную связь по сравнению с ИИ-агентами, включая вопросы понимания, тестирования и передачи знаний. При ревью кода, сгенерированного ИИ, люди-рецензенты обмениваются на 11,8% больше сообщений, чем при ревью кода, написанного человеком. Более того, предложения по коду, сделанные ИИ-агентами, принимаются в кодобазу значительно реже, чем предложения, выдвинутые людьми-рецензентами. Более половины непринятых предложений от ИИ-агентов либо некорректны, либо разработчики устраняют проблемы альтернативными способами. В случае принятия предложений от ИИ-агентов наблюдается значительно более сильное увеличение сложности кода и его объема по сравнению с предложениями от людей-рецензентов. Наши выводы свидетельствуют о том, что хотя ИИ-агенты могут масштабировать проверку на дефекты, человеческий контроль остается критически важным для обеспечения качества предложений и предоставления контекстной обратной связи, которой ИИ-агентам не хватает.
English
Code review is a critical software engineering practice where developers review code changes before integration to ensure code quality, detect defects, and improve maintainability. In recent years, AI agents that can understand code context, plan review actions, and interact with development environments have been increasingly integrated into the code review process. However, there is limited empirical evidence to compare the effectiveness of AI agents and human reviewers in collaborative workflows. To address this gap, we conduct a large-scale empirical analysis of 278,790 code review conversations across 300 open-source GitHub projects. In our study, we aim to compare the feedback differences provided by human reviewers and AI agents. We investigate human-AI collaboration patterns in review conversations to understand how interaction shapes review outcomes. Moreover, we analyze the adoption of code suggestions provided by human reviewers and AI agents into the codebase and how adopted suggestions change code quality. We find that human reviewers provide additional feedback than AI agents, including understanding, testing, and knowledge transfer. Human reviewers exchange 11.8% more rounds when reviewing AI-generated code than human-written code. Moreover, code suggestions made by AI agents are adopted into the codebase at a significantly lower rate than suggestions proposed by human reviewers. Over half of unadopted suggestions from AI agents are either incorrect or addressed through alternative fixes by developers. When adopted, suggestions provided by AI agents produce significantly larger increases in code complexity and code size than suggestions provided by human reviewers. Our findings suggest that while AI agents can scale defect screening, human oversight remains critical for ensuring suggestion quality and providing contextual feedback that AI agents lack.