Paper2Code: Automatische Codegeneratie uit Wetenschappelijke Artikelen in Machine LearningPaper2Code: Automating Code Generation from Scientific Papers in Machine
Learning
Ondanks de snelle groei van onderzoek naar machine learning, zijn bijbehorende code-implementaties vaak niet beschikbaar, wat het voor onderzoekers tijdrovend en arbeidsintensief maakt om resultaten te reproduceren en voort te bouwen op eerder werk. Tegelijkertijd blinken recente Large Language Models (LLM's) uit in het begrijpen van wetenschappelijke documenten en het genereren van hoogwaardige code. Geïnspireerd door dit gegeven introduceren we PaperCoder, een multi-agent LLM-framework dat machine learning-artikelen omzet in functionele code-repositories. PaperCoder werkt in drie fasen: planning, waarin het een hoogwaardige roadmap opstelt, het systeemarchitectuur ontwerpt met diagrammen, bestandsafhankelijkheden identificeert en configuratiebestanden genereert; analyse, die zich richt op het interpreteren van implementatiespecifieke details; en generatie, waarin modulaire, afhankelijkheidsbewuste code wordt geproduceerd. Bovendien wordt elke fase geïmplementeerd via een reeks gespecialiseerde agents die zijn ontworpen om effectief samen te werken in de pijplijn. Vervolgens evalueren we PaperCoder op het genereren van code-implementaties uit machine learning-artikelen op basis van zowel modelgebaseerde als menselijke evaluaties, specifiek van de oorspronkelijke auteurs van de artikelen, met door auteurs vrijgegeven repositories als grondwaarheid indien beschikbaar. Onze resultaten tonen de effectiviteit van PaperCoder aan in het creëren van hoogwaardige, getrouwe implementaties. Bovendien toont het consistent sterke prestaties in de recentelijk vrijgegeven PaperBench-benchmark, waarbij het sterke baseline-methodes met aanzienlijke marges overtreft.