Последняя статья, написанная человеком: Исследовательские артефакты, ориентированные на агентов

Аннотация

Научные публикации сжимают разветвленный, итеративный исследовательский процесс в линейное повествование, отбрасывая большую часть того, что было обнаружено по пути. Эта компиляция налагает две структурные издержки: *Налог на нарратив*, когда неудачные эксперименты, отвергнутые гипотезы и процесс ветвления исследований отбрасываются для соответствия линейному повествованию; и *Инженерный налог*, когда разрыв между текстом, достаточным для рецензента, и спецификацией, достаточной для агента, оставляет критические детали реализации непрописанными. Эти издержки терпимы для человека-читателя, но становятся критическими, когда ИИ-агенты должны понимать, воспроизводить и развивать опубликованные работы. Мы представляем Исследовательский артефакт, нативный для агентов (Agent-Native Research Artifact, ARA) — протокол, который заменяет повествовательную статью на исполняемый машиной исследовательский пакет, структурированный вокруг четырех слоев: научная логика, исполняемый код с полными спецификациями, граф исследований, сохраняющий отвергнутые при компиляции неудачи, и доказательства, обосновывающие каждое утверждение исходными результатами. Три механизма поддерживают экосистему: Менеджер живого исследования, который фиксирует решения и тупиковые пути в ходе обычной разработки; Компилятор ARA, который преобразует унаследованные PDF-файлы и репозитории в ARA; и система рецензирования, нативная для ARA, которая автоматизирует объективные проверки, позволяя человеку-рецензенту сосредоточиться на значимости, новизне и общем впечатлении. На наборах данных PaperBench и RE-Bench ARA повышает точность ответов на вопросы с 72.4% до 93.7%, а успешность воспроизведения — с 57.4% до 64.4%. На пяти открытых задачах по расширению из RE-Bench сохраненные в ARA следы неудач ускоряют прогресс, но также могут ограничивать способного агента, не позволяя ему выйти за рамки ранее пройденного, в зависимости от возможностей самого агента.

English

Scientific publication compresses a branching, iterative research process into a linear narrative, discarding the majority of what was discovered along the way. This compilation imposes two structural costs: a Storytelling Tax, where failed experiments, rejected hypotheses, and the branching exploration process are discarded to fit a linear narrative; and an Engineering Tax, where the gap between reviewer-sufficient prose and agent-sufficient specification leaves critical implementation details unwritten. Tolerable for human readers, these costs become critical when AI agents must understand, reproduce, and extend published work. We introduce the Agent-Native Research Artifact (ARA), a protocol that replaces the narrative paper with a machine-executable research package structured around four layers: scientific logic, executable code with full specifications, an exploration graph that preserves the failures compilation discards, and evidence grounding every claim in raw outputs. Three mechanisms support the ecosystem: a Live Research Manager that captures decisions and dead ends during ordinary development; an ARA Compiler that translates legacy PDFs and repos into ARAs; and an ARA-native review system that automates objective checks so human reviewers can focus on significance, novelty, and taste. On PaperBench and RE-Bench, ARA raises question-answering accuracy from 72.4% to 93.7% and reproduction success from 57.4% to 64.4%. On RE-Bench's five open-ended extension tasks, preserved failure traces in ARA accelerate progress, but can also constrain a capable agent from stepping outside the prior-run box depending on the agent's capabilities.

Последняя статья, написанная человеком: Исследовательские артефакты, ориентированные на агентов

The Last Human-Written Paper: Agent-Native Research Artifacts

Аннотация

Support