Paper2Code: Automatische Codegeneratie uit Wetenschappelijke Artikelen in Machine Learning

Samenvatting

Ondanks de snelle groei van onderzoek naar machine learning, zijn bijbehorende code-implementaties vaak niet beschikbaar, wat het voor onderzoekers tijdrovend en arbeidsintensief maakt om resultaten te reproduceren en voort te bouwen op eerder werk. Tegelijkertijd blinken recente Large Language Models (LLM's) uit in het begrijpen van wetenschappelijke documenten en het genereren van hoogwaardige code. Geïnspireerd door dit gegeven introduceren we PaperCoder, een multi-agent LLM-framework dat machine learning-artikelen omzet in functionele code-repositories. PaperCoder werkt in drie fasen: planning, waarin het een hoogwaardige roadmap opstelt, het systeemarchitectuur ontwerpt met diagrammen, bestandsafhankelijkheden identificeert en configuratiebestanden genereert; analyse, die zich richt op het interpreteren van implementatiespecifieke details; en generatie, waarin modulaire, afhankelijkheidsbewuste code wordt geproduceerd. Bovendien wordt elke fase geïmplementeerd via een reeks gespecialiseerde agents die zijn ontworpen om effectief samen te werken in de pijplijn. Vervolgens evalueren we PaperCoder op het genereren van code-implementaties uit machine learning-artikelen op basis van zowel modelgebaseerde als menselijke evaluaties, specifiek van de oorspronkelijke auteurs van de artikelen, met door auteurs vrijgegeven repositories als grondwaarheid indien beschikbaar. Onze resultaten tonen de effectiviteit van PaperCoder aan in het creëren van hoogwaardige, getrouwe implementaties. Bovendien toont het consistent sterke prestaties in de recentelijk vrijgegeven PaperBench-benchmark, waarbij het sterke baseline-methodes met aanzienlijke marges overtreft.

English

Despite the rapid growth of machine learning research, corresponding code implementations are often unavailable, making it slow and labor-intensive for researchers to reproduce results and build upon prior work. In the meantime, recent Large Language Models (LLMs) excel at understanding scientific documents and generating high-quality code. Inspired by this, we introduce PaperCoder, a multi-agent LLM framework that transforms machine learning papers into functional code repositories. PaperCoder operates in three stages: planning, where it constructs a high-level roadmap, designs the system architecture with diagrams, identifies file dependencies, and generates configuration files; analysis, which focuses on interpreting implementation-specific details; and generation, where modular, dependency-aware code is produced. Moreover, each phase is instantiated through a set of specialized agents designed to collaborate effectively across the pipeline. We then evaluate PaperCoder on generating code implementations from machine learning papers based on both model-based and human evaluations, specifically from the original paper authors, with author-released repositories as ground truth if available. Our results demonstrate the effectiveness of PaperCoder in creating high-quality, faithful implementations. Furthermore, it consistently shows strengths in the recently released PaperBench benchmark, surpassing strong baselines by substantial margins.

Paper2Code: Automatische Codegeneratie uit Wetenschappelijke Artikelen in Machine Learning

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

Samenvatting

Support