Paper2Code: Automatización de la Generación de Código a partir de Artículos Científicos en Aprendizaje Automático
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
April 24, 2025
Autores: Minju Seo, Jinheon Baek, Seongyun Lee, Sung Ju Hwang
cs.AI
Resumen
A pesar del rápido crecimiento de la investigación en aprendizaje automático, las implementaciones de código correspondientes a menudo no están disponibles, lo que hace que sea lento y laborioso para los investigadores reproducir resultados y construir sobre trabajos previos. Mientras tanto, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) recientes sobresalen en la comprensión de documentos científicos y en la generación de código de alta calidad. Inspirados por esto, presentamos PaperCoder, un marco de trabajo multiagente basado en LLMs que transforma artículos de aprendizaje automático en repositorios de código funcionales. PaperCoder opera en tres etapas: planificación, donde construye un plan de alto nivel, diseña la arquitectura del sistema con diagramas, identifica dependencias de archivos y genera archivos de configuración; análisis, que se centra en interpretar detalles específicos de la implementación; y generación, donde se produce código modular y consciente de las dependencias. Además, cada fase se implementa a través de un conjunto de agentes especializados diseñados para colaborar de manera efectiva en todo el proceso. Luego evaluamos PaperCoder en la generación de implementaciones de código a partir de artículos de aprendizaje automático, basándonos tanto en evaluaciones basadas en modelos como en evaluaciones humanas, específicamente de los autores originales de los artículos, utilizando repositorios publicados por los autores como referencia cuando están disponibles. Nuestros resultados demuestran la efectividad de PaperCoder en la creación de implementaciones de alta calidad y fieles. Además, muestra consistentemente fortalezas en el recientemente lanzado benchmark PaperBench, superando a fuertes líneas base por márgenes sustanciales.
English
Despite the rapid growth of machine learning research, corresponding code
implementations are often unavailable, making it slow and labor-intensive for
researchers to reproduce results and build upon prior work. In the meantime,
recent Large Language Models (LLMs) excel at understanding scientific documents
and generating high-quality code. Inspired by this, we introduce PaperCoder, a
multi-agent LLM framework that transforms machine learning papers into
functional code repositories. PaperCoder operates in three stages: planning,
where it constructs a high-level roadmap, designs the system architecture with
diagrams, identifies file dependencies, and generates configuration files;
analysis, which focuses on interpreting implementation-specific details; and
generation, where modular, dependency-aware code is produced. Moreover, each
phase is instantiated through a set of specialized agents designed to
collaborate effectively across the pipeline. We then evaluate PaperCoder on
generating code implementations from machine learning papers based on both
model-based and human evaluations, specifically from the original paper
authors, with author-released repositories as ground truth if available. Our
results demonstrate the effectiveness of PaperCoder in creating high-quality,
faithful implementations. Furthermore, it consistently shows strengths in the
recently released PaperBench benchmark, surpassing strong baselines by
substantial margins.Summary
AI-Generated Summary