Paper2Code: Automatización de la Generación de Código a partir de Artículos Científicos en Aprendizaje Automático

Resumen

A pesar del rápido crecimiento de la investigación en aprendizaje automático, las implementaciones de código correspondientes a menudo no están disponibles, lo que hace que sea lento y laborioso para los investigadores reproducir resultados y construir sobre trabajos previos. Mientras tanto, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) recientes sobresalen en la comprensión de documentos científicos y en la generación de código de alta calidad. Inspirados por esto, presentamos PaperCoder, un marco de trabajo multiagente basado en LLMs que transforma artículos de aprendizaje automático en repositorios de código funcionales. PaperCoder opera en tres etapas: planificación, donde construye un plan de alto nivel, diseña la arquitectura del sistema con diagramas, identifica dependencias de archivos y genera archivos de configuración; análisis, que se centra en interpretar detalles específicos de la implementación; y generación, donde se produce código modular y consciente de las dependencias. Además, cada fase se implementa a través de un conjunto de agentes especializados diseñados para colaborar de manera efectiva en todo el proceso. Luego evaluamos PaperCoder en la generación de implementaciones de código a partir de artículos de aprendizaje automático, basándonos tanto en evaluaciones basadas en modelos como en evaluaciones humanas, específicamente de los autores originales de los artículos, utilizando repositorios publicados por los autores como referencia cuando están disponibles. Nuestros resultados demuestran la efectividad de PaperCoder en la creación de implementaciones de alta calidad y fieles. Además, muestra consistentemente fortalezas en el recientemente lanzado benchmark PaperBench, superando a fuertes líneas base por márgenes sustanciales.

English

Despite the rapid growth of machine learning research, corresponding code implementations are often unavailable, making it slow and labor-intensive for researchers to reproduce results and build upon prior work. In the meantime, recent Large Language Models (LLMs) excel at understanding scientific documents and generating high-quality code. Inspired by this, we introduce PaperCoder, a multi-agent LLM framework that transforms machine learning papers into functional code repositories. PaperCoder operates in three stages: planning, where it constructs a high-level roadmap, designs the system architecture with diagrams, identifies file dependencies, and generates configuration files; analysis, which focuses on interpreting implementation-specific details; and generation, where modular, dependency-aware code is produced. Moreover, each phase is instantiated through a set of specialized agents designed to collaborate effectively across the pipeline. We then evaluate PaperCoder on generating code implementations from machine learning papers based on both model-based and human evaluations, specifically from the original paper authors, with author-released repositories as ground truth if available. Our results demonstrate the effectiveness of PaperCoder in creating high-quality, faithful implementations. Furthermore, it consistently shows strengths in the recently released PaperBench benchmark, surpassing strong baselines by substantial margins.

Paper2Code: Automatización de la Generación de Código a partir de Artículos Científicos en Aprendizaje Automático

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

Resumen

Support