Paper2Code: Automatizando a Geração de Código a partir de Artigos Científicos em Aprendizado de Máquina

Resumo

Apesar do rápido crescimento da pesquisa em aprendizado de máquina, as implementações de código correspondentes frequentemente não estão disponíveis, tornando lento e trabalhoso para os pesquisadores reproduzir resultados e construir sobre trabalhos anteriores. Enquanto isso, os recentes Modelos de Linguagem de Grande Escala (LLMs) se destacam na compreensão de documentos científicos e na geração de código de alta qualidade. Inspirados por isso, introduzimos o PaperCoder, um framework multiagente baseado em LLMs que transforma artigos de aprendizado de máquina em repositórios de código funcionais. O PaperCoder opera em três estágios: planejamento, onde constrói um roteiro de alto nível, projeta a arquitetura do sistema com diagramas, identifica dependências de arquivos e gera arquivos de configuração; análise, que se concentra na interpretação de detalhes específicos da implementação; e geração, onde é produzido código modular e consciente das dependências. Além disso, cada fase é instanciada por meio de um conjunto de agentes especializados projetados para colaborar de forma eficaz ao longo do pipeline. Avaliamos o PaperCoder na geração de implementações de código a partir de artigos de aprendizado de máquina com base em avaliações tanto de modelos quanto humanas, especificamente dos autores originais dos artigos, utilizando repositórios liberados pelos autores como verdade fundamental, quando disponíveis. Nossos resultados demonstram a eficácia do PaperCoder na criação de implementações de alta qualidade e fiéis. Além disso, ele consistentemente mostra pontos fortes no benchmark PaperBench, recentemente lançado, superando baselines robustas por margens substanciais.

English

Despite the rapid growth of machine learning research, corresponding code implementations are often unavailable, making it slow and labor-intensive for researchers to reproduce results and build upon prior work. In the meantime, recent Large Language Models (LLMs) excel at understanding scientific documents and generating high-quality code. Inspired by this, we introduce PaperCoder, a multi-agent LLM framework that transforms machine learning papers into functional code repositories. PaperCoder operates in three stages: planning, where it constructs a high-level roadmap, designs the system architecture with diagrams, identifies file dependencies, and generates configuration files; analysis, which focuses on interpreting implementation-specific details; and generation, where modular, dependency-aware code is produced. Moreover, each phase is instantiated through a set of specialized agents designed to collaborate effectively across the pipeline. We then evaluate PaperCoder on generating code implementations from machine learning papers based on both model-based and human evaluations, specifically from the original paper authors, with author-released repositories as ground truth if available. Our results demonstrate the effectiveness of PaperCoder in creating high-quality, faithful implementations. Furthermore, it consistently shows strengths in the recently released PaperBench benchmark, surpassing strong baselines by substantial margins.

Paper2Code: Automatizando a Geração de Código a partir de Artigos Científicos em Aprendizado de Máquina

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

Resumo

Summary

Support

Support