Paper2Code: Automazione della Generazione di Codice da Articoli Scientifici nel Campo dell'Apprendimento Automatico
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
April 24, 2025
Autori: Minju Seo, Jinheon Baek, Seongyun Lee, Sung Ju Hwang
cs.AI
Abstract
Nonostante la rapida crescita della ricerca nel campo del machine learning, le corrispondenti implementazioni di codice sono spesso non disponibili, rendendo lento e laborioso per i ricercatori riprodurre i risultati e costruire sul lavoro precedente. Nel frattempo, i recenti Modelli Linguistici di Grande Dimensione (LLM) eccellono nella comprensione di documenti scientifici e nella generazione di codice di alta qualità. Ispirati da ciò, introduciamo PaperCoder, un framework multi-agente basato su LLM che trasforma articoli di machine learning in repository di codice funzionali. PaperCoder opera in tre fasi: pianificazione, in cui costruisce una roadmap di alto livello, progetta l'architettura del sistema con diagrammi, identifica le dipendenze dei file e genera file di configurazione; analisi, che si concentra sull'interpretazione dei dettagli specifici dell'implementazione; e generazione, in cui viene prodotto codice modulare e consapevole delle dipendenze. Inoltre, ogni fase è istanziata attraverso un insieme di agenti specializzati progettati per collaborare efficacemente lungo la pipeline. Valutiamo quindi PaperCoder sulla generazione di implementazioni di codice da articoli di machine learning basandoci sia su valutazioni basate su modelli che su valutazioni umane, in particolare da parte degli autori originali degli articoli, con i repository rilasciati dagli autori come verità di riferimento se disponibili. I nostri risultati dimostrano l'efficacia di PaperCoder nel creare implementazioni di alta qualità e fedeli. Inoltre, mostra costantemente punti di forza nel benchmark PaperBench recentemente rilasciato, superando i forti baseline con margini sostanziali.
English
Despite the rapid growth of machine learning research, corresponding code
implementations are often unavailable, making it slow and labor-intensive for
researchers to reproduce results and build upon prior work. In the meantime,
recent Large Language Models (LLMs) excel at understanding scientific documents
and generating high-quality code. Inspired by this, we introduce PaperCoder, a
multi-agent LLM framework that transforms machine learning papers into
functional code repositories. PaperCoder operates in three stages: planning,
where it constructs a high-level roadmap, designs the system architecture with
diagrams, identifies file dependencies, and generates configuration files;
analysis, which focuses on interpreting implementation-specific details; and
generation, where modular, dependency-aware code is produced. Moreover, each
phase is instantiated through a set of specialized agents designed to
collaborate effectively across the pipeline. We then evaluate PaperCoder on
generating code implementations from machine learning papers based on both
model-based and human evaluations, specifically from the original paper
authors, with author-released repositories as ground truth if available. Our
results demonstrate the effectiveness of PaperCoder in creating high-quality,
faithful implementations. Furthermore, it consistently shows strengths in the
recently released PaperBench benchmark, surpassing strong baselines by
substantial margins.Summary
AI-Generated Summary