Paper2Code: Automazione della Generazione di Codice da Articoli Scientifici nel Campo dell'Apprendimento Automatico

Abstract

Nonostante la rapida crescita della ricerca nel campo del machine learning, le corrispondenti implementazioni di codice sono spesso non disponibili, rendendo lento e laborioso per i ricercatori riprodurre i risultati e costruire sul lavoro precedente. Nel frattempo, i recenti Modelli Linguistici di Grande Dimensione (LLM) eccellono nella comprensione di documenti scientifici e nella generazione di codice di alta qualità. Ispirati da ciò, introduciamo PaperCoder, un framework multi-agente basato su LLM che trasforma articoli di machine learning in repository di codice funzionali. PaperCoder opera in tre fasi: pianificazione, in cui costruisce una roadmap di alto livello, progetta l'architettura del sistema con diagrammi, identifica le dipendenze dei file e genera file di configurazione; analisi, che si concentra sull'interpretazione dei dettagli specifici dell'implementazione; e generazione, in cui viene prodotto codice modulare e consapevole delle dipendenze. Inoltre, ogni fase è istanziata attraverso un insieme di agenti specializzati progettati per collaborare efficacemente lungo la pipeline. Valutiamo quindi PaperCoder sulla generazione di implementazioni di codice da articoli di machine learning basandoci sia su valutazioni basate su modelli che su valutazioni umane, in particolare da parte degli autori originali degli articoli, con i repository rilasciati dagli autori come verità di riferimento se disponibili. I nostri risultati dimostrano l'efficacia di PaperCoder nel creare implementazioni di alta qualità e fedeli. Inoltre, mostra costantemente punti di forza nel benchmark PaperBench recentemente rilasciato, superando i forti baseline con margini sostanziali.

English

Despite the rapid growth of machine learning research, corresponding code implementations are often unavailable, making it slow and labor-intensive for researchers to reproduce results and build upon prior work. In the meantime, recent Large Language Models (LLMs) excel at understanding scientific documents and generating high-quality code. Inspired by this, we introduce PaperCoder, a multi-agent LLM framework that transforms machine learning papers into functional code repositories. PaperCoder operates in three stages: planning, where it constructs a high-level roadmap, designs the system architecture with diagrams, identifies file dependencies, and generates configuration files; analysis, which focuses on interpreting implementation-specific details; and generation, where modular, dependency-aware code is produced. Moreover, each phase is instantiated through a set of specialized agents designed to collaborate effectively across the pipeline. We then evaluate PaperCoder on generating code implementations from machine learning papers based on both model-based and human evaluations, specifically from the original paper authors, with author-released repositories as ground truth if available. Our results demonstrate the effectiveness of PaperCoder in creating high-quality, faithful implementations. Furthermore, it consistently shows strengths in the recently released PaperBench benchmark, surpassing strong baselines by substantial margins.

Paper2Code: Automazione della Generazione di Codice da Articoli Scientifici nel Campo dell'Apprendimento Automatico

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

Abstract

Support