ChatPaper.aiChatPaper

Последняя статья, написанная человеком: Исследовательские артефакты, ориентированные на агентов

The Last Human-Written Paper: Agent-Native Research Artifacts

April 29, 2026
Авторы: Jiachen Liu, Jiaxin Pei, Jintao Huang, Chenglei Si, Ao Qu, Xiangru Tang, Runyu Lu, Lichang Chen, Xiaoyan Bai, Haizhong Zheng, Carl Chen, Zhiyang Chen, Haojie Ye, Yujuan Fu, Zexue He, Zijian Jin, Zhenyu Zhang, Shangquan Sun, Maestro Harmon, John Dianzhuo Wang, Jianqiao Zeng, Jiachen Sun, Mingyuan Wu, Baoyu Zhou, Chenyu You, Shijian Lu, Yiming Qiu, Fan Lai, Yuan Yuan, Yao Li, Junyuan Hong, Ruihao Zhu, Beidi Chen, Alex Pentland, Ang Chen, Mosharaf Chowdhury, Zechen Zhang
cs.AI

Аннотация

Научные публикации сжимают разветвленный, итеративный исследовательский процесс в линейное повествование, отбрасывая большую часть того, что было обнаружено по пути. Эта компиляция налагает две структурные издержки: *Налог на нарратив*, когда неудачные эксперименты, отвергнутые гипотезы и процесс ветвления исследований отбрасываются для соответствия линейному повествованию; и *Инженерный налог*, когда разрыв между текстом, достаточным для рецензента, и спецификацией, достаточной для агента, оставляет критические детали реализации непрописанными. Эти издержки терпимы для человека-читателя, но становятся критическими, когда ИИ-агенты должны понимать, воспроизводить и развивать опубликованные работы. Мы представляем Исследовательский артефакт, нативный для агентов (Agent-Native Research Artifact, ARA) — протокол, который заменяет повествовательную статью на исполняемый машиной исследовательский пакет, структурированный вокруг четырех слоев: научная логика, исполняемый код с полными спецификациями, граф исследований, сохраняющий отвергнутые при компиляции неудачи, и доказательства, обосновывающие каждое утверждение исходными результатами. Три механизма поддерживают экосистему: Менеджер живого исследования, который фиксирует решения и тупиковые пути в ходе обычной разработки; Компилятор ARA, который преобразует унаследованные PDF-файлы и репозитории в ARA; и система рецензирования, нативная для ARA, которая автоматизирует объективные проверки, позволяя человеку-рецензенту сосредоточиться на значимости, новизне и общем впечатлении. На наборах данных PaperBench и RE-Bench ARA повышает точность ответов на вопросы с 72.4% до 93.7%, а успешность воспроизведения — с 57.4% до 64.4%. На пяти открытых задачах по расширению из RE-Bench сохраненные в ARA следы неудач ускоряют прогресс, но также могут ограничивать способного агента, не позволяя ему выйти за рамки ранее пройденного, в зависимости от возможностей самого агента.
English
Scientific publication compresses a branching, iterative research process into a linear narrative, discarding the majority of what was discovered along the way. This compilation imposes two structural costs: a Storytelling Tax, where failed experiments, rejected hypotheses, and the branching exploration process are discarded to fit a linear narrative; and an Engineering Tax, where the gap between reviewer-sufficient prose and agent-sufficient specification leaves critical implementation details unwritten. Tolerable for human readers, these costs become critical when AI agents must understand, reproduce, and extend published work. We introduce the Agent-Native Research Artifact (ARA), a protocol that replaces the narrative paper with a machine-executable research package structured around four layers: scientific logic, executable code with full specifications, an exploration graph that preserves the failures compilation discards, and evidence grounding every claim in raw outputs. Three mechanisms support the ecosystem: a Live Research Manager that captures decisions and dead ends during ordinary development; an ARA Compiler that translates legacy PDFs and repos into ARAs; and an ARA-native review system that automates objective checks so human reviewers can focus on significance, novelty, and taste. On PaperBench and RE-Bench, ARA raises question-answering accuracy from 72.4% to 93.7% and reproduction success from 57.4% to 64.4%. On RE-Bench's five open-ended extension tasks, preserved failure traces in ARA accelerate progress, but can also constrain a capable agent from stepping outside the prior-run box depending on the agent's capabilities.
PDF51May 2, 2026