Paper2Code: Автоматизация генерации кода из научных статей в области машинного обучения

Аннотация

Несмотря на стремительный рост исследований в области машинного обучения, соответствующие реализации кода часто недоступны, что делает процесс воспроизведения результатов и построения на основе предыдущих работ медленным и трудоемким для исследователей. В то же время современные крупные языковые модели (LLM) демонстрируют выдающиеся способности в понимании научных документов и генерации высококачественного кода. Вдохновленные этим, мы представляем PaperCoder — мультиагентную LLM-систему, которая преобразует статьи по машинному обучению в функциональные репозитории кода. PaperCoder работает в три этапа: планирование, на котором создается высокоуровневый план, проектируется архитектура системы с использованием диаграмм, определяются зависимости файлов и генерируются конфигурационные файлы; анализ, который сосредоточен на интерпретации деталей, специфичных для реализации; и генерация, в ходе которой создается модульный код с учетом зависимостей. Каждый этап реализуется через набор специализированных агентов, разработанных для эффективного взаимодействия в рамках конвейера. Мы оцениваем PaperCoder на основе генерации кодовых реализаций из статей по машинному обучению, используя как модельные, так и человеческие оценки, в частности от авторов оригинальных статей, с репозиториями, выпущенными авторами, в качестве эталонных данных, если они доступны. Наши результаты демонстрируют эффективность PaperCoder в создании высококачественных и точных реализаций. Кроме того, система стабильно показывает сильные результаты в недавно выпущенном бенчмарке PaperBench, значительно опережая сильные базовые подходы.

English

Despite the rapid growth of machine learning research, corresponding code implementations are often unavailable, making it slow and labor-intensive for researchers to reproduce results and build upon prior work. In the meantime, recent Large Language Models (LLMs) excel at understanding scientific documents and generating high-quality code. Inspired by this, we introduce PaperCoder, a multi-agent LLM framework that transforms machine learning papers into functional code repositories. PaperCoder operates in three stages: planning, where it constructs a high-level roadmap, designs the system architecture with diagrams, identifies file dependencies, and generates configuration files; analysis, which focuses on interpreting implementation-specific details; and generation, where modular, dependency-aware code is produced. Moreover, each phase is instantiated through a set of specialized agents designed to collaborate effectively across the pipeline. We then evaluate PaperCoder on generating code implementations from machine learning papers based on both model-based and human evaluations, specifically from the original paper authors, with author-released repositories as ground truth if available. Our results demonstrate the effectiveness of PaperCoder in creating high-quality, faithful implementations. Furthermore, it consistently shows strengths in the recently released PaperBench benchmark, surpassing strong baselines by substantial margins.

Paper2Code: Автоматизация генерации кода из научных статей в области машинного обучения

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

Аннотация

Support