ChatPaper.aiChatPaper

Paper2Code: 머신러닝 분야의 과학 논문에서 코드 생성을 자동화하기

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

April 24, 2025
저자: Minju Seo, Jinheon Baek, Seongyun Lee, Sung Ju Hwang
cs.AI

초록

머신러닝 연구가 급속도로 성장하고 있음에도 불구하고, 해당 코드 구현체는 종종 공개되지 않아 연구자들이 결과를 재현하고 선행 연구를 기반으로 구축하는 데 시간과 노력이 많이 소요됩니다. 한편, 최근의 대규모 언어 모델(LLMs)은 과학 문서를 이해하고 고품질의 코드를 생성하는 데 탁월한 능력을 보여주고 있습니다. 이를 영감으로 삼아, 우리는 머신러닝 논문을 기능적인 코드 저장소로 변환하는 다중 에이전트 LLM 프레임워크인 PaperCoder를 소개합니다. PaperCoder는 세 단계로 작동합니다: 계획 단계에서는 상위 수준의 로드맵을 구성하고, 시스템 아키텍처를 다이어그램으로 설계하며, 파일 의존성을 식별하고 설정 파일을 생성합니다; 분석 단계에서는 구현 관련 세부 사항을 해석하는 데 초점을 맞춥니다; 생성 단계에서는 모듈화되고 의존성을 고려한 코드를 생성합니다. 또한, 각 단계는 파이프라인 전반에 걸쳐 효과적으로 협업하도록 설계된 전문 에이전트 세트를 통해 구현됩니다. 우리는 PaperCoder를 머신러닝 논문에서 코드 구현체를 생성하는 데 대해 모델 기반 및 인간 평가(특히 원본 논문 저자들로부터)를 통해 평가하며, 가능한 경우 저자가 공개한 저장소를 기준으로 삼습니다. 우리의 결과는 PaperCoder가 고품질이고 충실한 구현체를 생성하는 데 효과적임을 보여줍니다. 또한, 최근 출시된 PaperBench 벤치마크에서도 PaperCoder는 강력한 베이스라인을 상당한 차이로 능가하며 꾸준히 강점을 보여줍니다.
English
Despite the rapid growth of machine learning research, corresponding code implementations are often unavailable, making it slow and labor-intensive for researchers to reproduce results and build upon prior work. In the meantime, recent Large Language Models (LLMs) excel at understanding scientific documents and generating high-quality code. Inspired by this, we introduce PaperCoder, a multi-agent LLM framework that transforms machine learning papers into functional code repositories. PaperCoder operates in three stages: planning, where it constructs a high-level roadmap, designs the system architecture with diagrams, identifies file dependencies, and generates configuration files; analysis, which focuses on interpreting implementation-specific details; and generation, where modular, dependency-aware code is produced. Moreover, each phase is instantiated through a set of specialized agents designed to collaborate effectively across the pipeline. We then evaluate PaperCoder on generating code implementations from machine learning papers based on both model-based and human evaluations, specifically from the original paper authors, with author-released repositories as ground truth if available. Our results demonstrate the effectiveness of PaperCoder in creating high-quality, faithful implementations. Furthermore, it consistently shows strengths in the recently released PaperBench benchmark, surpassing strong baselines by substantial margins.

Summary

AI-Generated Summary

PDF956April 25, 2025