ChatPaper.aiChatPaper

DeepCode: 오픈 에이전트 코딩

DeepCode: Open Agentic Coding

December 8, 2025
저자: Zongwei Li, Zhonghang Li, Zirui Guo, Xubin Ren, Chao Huang
cs.AI

초록

대규모 언어 모델(LLM)의 최근 발전은 강력한 코딩 에이전트를 탄생시켜 코드 어시스턴트가 코드 엔지니어로 진화할 수 있는 계기를 마련했습니다. 그러나 기존 방법론들은 정보 과부하와 LLM의 컨텍스트 병목 현상 사이의 근본적인 충돌로 인해, 과학 논문을 코드로 변환하는 것과 같은 고품질의 문서-코드베이스 합성에 여전히 상당한 어려움을 겪고 있습니다. 본 연구에서는 원칙 기반 정보 흐름 관리를 통해 이러한 문제를 근본적으로 해결하는 완전 자율 프레임워크인 DeepCode를 소개합니다. DeepCode는 저장소 합성을 채널 최적화 문제로 접근하여 유한한 컨텍스트 예산 내에서 작업 관련 신호를 극대화하기 위해 네 가지 정보 연산을 원활하게 조율합니다: 청사진 추출을 통한 소스 압축, 상태 저장 코드 메모리를 활용한 구조화된 인덱싱, 검색 증강 생성 기반 조건부 지식 주입, 그리고 폐쇄형 오류 수정이 그것입니다. PaperBench 벤치마크에 대한 포괄적인 평가 결과, DeepCode는 최첨단 성능을 달성하며 Cursor 및 Claude Code와 같은 주요 상용 에이전트를 결정적으로 능가했을 뿐만 아니라, 특히 핵심 재현 지표에서 최상위 기관의 박사급 인간 전문가를 능가하는 것으로 나타났습니다. 본 연구는 논문 명세를 인간 전문가 수준의 프로덕션급 구현체로 체계적으로 변환함으로써, 연구 평가와 발견을 가속화할 수 있는 자율 과학 재현의 새로운 기초를 마련했습니다.
English
Recent advances in large language models (LLMs) have given rise to powerful coding agents, making it possible for code assistants to evolve into code engineers. However, existing methods still face significant challenges in achieving high-fidelity document-to-codebase synthesis--such as scientific papers to code--primarily due to a fundamental conflict between information overload and the context bottlenecks of LLMs. In this work, we introduce DeepCode, a fully autonomous framework that fundamentally addresses this challenge through principled information-flow management. By treating repository synthesis as a channel optimization problem, DeepCode seamlessly orchestrates four information operations to maximize task-relevant signals under finite context budgets: source compression via blueprint distillation, structured indexing using stateful code memory, conditional knowledge injection via retrieval-augmented generation, and closed-loop error correction. Extensive evaluations on the PaperBench benchmark demonstrate that DeepCode achieves state-of-the-art performance, decisively outperforming leading commercial agents such as Cursor and Claude Code, and crucially, surpassing PhD-level human experts from top institutes on key reproduction metrics. By systematically transforming paper specifications into production-grade implementations comparable to human expert quality, this work establishes new foundations for autonomous scientific reproduction that can accelerate research evaluation and discovery.
PDF61December 11, 2025