Paper2Code: Automatische Codegeneratie uit Wetenschappelijke Artikelen in Machine Learning
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
April 24, 2025
Auteurs: Minju Seo, Jinheon Baek, Seongyun Lee, Sung Ju Hwang
cs.AI
Samenvatting
Ondanks de snelle groei van onderzoek naar machine learning, zijn bijbehorende code-implementaties vaak niet beschikbaar, wat het voor onderzoekers tijdrovend en arbeidsintensief maakt om resultaten te reproduceren en voort te bouwen op eerder werk. Tegelijkertijd blinken recente Large Language Models (LLM's) uit in het begrijpen van wetenschappelijke documenten en het genereren van hoogwaardige code. Geïnspireerd door dit gegeven introduceren we PaperCoder, een multi-agent LLM-framework dat machine learning-artikelen omzet in functionele code-repositories. PaperCoder werkt in drie fasen: planning, waarin het een hoogwaardige roadmap opstelt, het systeemarchitectuur ontwerpt met diagrammen, bestandsafhankelijkheden identificeert en configuratiebestanden genereert; analyse, die zich richt op het interpreteren van implementatiespecifieke details; en generatie, waarin modulaire, afhankelijkheidsbewuste code wordt geproduceerd. Bovendien wordt elke fase geïmplementeerd via een reeks gespecialiseerde agents die zijn ontworpen om effectief samen te werken in de pijplijn. Vervolgens evalueren we PaperCoder op het genereren van code-implementaties uit machine learning-artikelen op basis van zowel modelgebaseerde als menselijke evaluaties, specifiek van de oorspronkelijke auteurs van de artikelen, met door auteurs vrijgegeven repositories als grondwaarheid indien beschikbaar. Onze resultaten tonen de effectiviteit van PaperCoder aan in het creëren van hoogwaardige, getrouwe implementaties. Bovendien toont het consistent sterke prestaties in de recentelijk vrijgegeven PaperBench-benchmark, waarbij het sterke baseline-methodes met aanzienlijke marges overtreft.
English
Despite the rapid growth of machine learning research, corresponding code
implementations are often unavailable, making it slow and labor-intensive for
researchers to reproduce results and build upon prior work. In the meantime,
recent Large Language Models (LLMs) excel at understanding scientific documents
and generating high-quality code. Inspired by this, we introduce PaperCoder, a
multi-agent LLM framework that transforms machine learning papers into
functional code repositories. PaperCoder operates in three stages: planning,
where it constructs a high-level roadmap, designs the system architecture with
diagrams, identifies file dependencies, and generates configuration files;
analysis, which focuses on interpreting implementation-specific details; and
generation, where modular, dependency-aware code is produced. Moreover, each
phase is instantiated through a set of specialized agents designed to
collaborate effectively across the pipeline. We then evaluate PaperCoder on
generating code implementations from machine learning papers based on both
model-based and human evaluations, specifically from the original paper
authors, with author-released repositories as ground truth if available. Our
results demonstrate the effectiveness of PaperCoder in creating high-quality,
faithful implementations. Furthermore, it consistently shows strengths in the
recently released PaperBench benchmark, surpassing strong baselines by
substantial margins.Summary
AI-Generated Summary