Paper2Code: Automatizando a Geração de Código a partir de Artigos Científicos em Aprendizado de Máquina
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
April 24, 2025
Autores: Minju Seo, Jinheon Baek, Seongyun Lee, Sung Ju Hwang
cs.AI
Resumo
Apesar do rápido crescimento da pesquisa em aprendizado de máquina, as implementações de código correspondentes frequentemente não estão disponíveis, tornando lento e trabalhoso para os pesquisadores reproduzir resultados e construir sobre trabalhos anteriores. Enquanto isso, os recentes Modelos de Linguagem de Grande Escala (LLMs) se destacam na compreensão de documentos científicos e na geração de código de alta qualidade. Inspirados por isso, introduzimos o PaperCoder, um framework multiagente baseado em LLMs que transforma artigos de aprendizado de máquina em repositórios de código funcionais. O PaperCoder opera em três estágios: planejamento, onde constrói um roteiro de alto nível, projeta a arquitetura do sistema com diagramas, identifica dependências de arquivos e gera arquivos de configuração; análise, que se concentra na interpretação de detalhes específicos da implementação; e geração, onde é produzido código modular e consciente das dependências. Além disso, cada fase é instanciada por meio de um conjunto de agentes especializados projetados para colaborar de forma eficaz ao longo do pipeline. Avaliamos o PaperCoder na geração de implementações de código a partir de artigos de aprendizado de máquina com base em avaliações tanto de modelos quanto humanas, especificamente dos autores originais dos artigos, utilizando repositórios liberados pelos autores como verdade fundamental, quando disponíveis. Nossos resultados demonstram a eficácia do PaperCoder na criação de implementações de alta qualidade e fiéis. Além disso, ele consistentemente mostra pontos fortes no benchmark PaperBench, recentemente lançado, superando baselines robustas por margens substanciais.
English
Despite the rapid growth of machine learning research, corresponding code
implementations are often unavailable, making it slow and labor-intensive for
researchers to reproduce results and build upon prior work. In the meantime,
recent Large Language Models (LLMs) excel at understanding scientific documents
and generating high-quality code. Inspired by this, we introduce PaperCoder, a
multi-agent LLM framework that transforms machine learning papers into
functional code repositories. PaperCoder operates in three stages: planning,
where it constructs a high-level roadmap, designs the system architecture with
diagrams, identifies file dependencies, and generates configuration files;
analysis, which focuses on interpreting implementation-specific details; and
generation, where modular, dependency-aware code is produced. Moreover, each
phase is instantiated through a set of specialized agents designed to
collaborate effectively across the pipeline. We then evaluate PaperCoder on
generating code implementations from machine learning papers based on both
model-based and human evaluations, specifically from the original paper
authors, with author-released repositories as ground truth if available. Our
results demonstrate the effectiveness of PaperCoder in creating high-quality,
faithful implementations. Furthermore, it consistently shows strengths in the
recently released PaperBench benchmark, surpassing strong baselines by
substantial margins.Summary
AI-Generated Summary