ChatPaper.aiChatPaper

Der letzte von Menschen verfasste Aufsatz: Agentennative Forschungswerkzeuge

The Last Human-Written Paper: Agent-Native Research Artifacts

April 29, 2026
Autoren: Jiachen Liu, Jiaxin Pei, Jintao Huang, Chenglei Si, Ao Qu, Xiangru Tang, Runyu Lu, Lichang Chen, Xiaoyan Bai, Haizhong Zheng, Carl Chen, Zhiyang Chen, Haojie Ye, Yujuan Fu, Zexue He, Zijian Jin, Zhenyu Zhang, Shangquan Sun, Maestro Harmon, John Dianzhuo Wang, Jianqiao Zeng, Jiachen Sun, Mingyuan Wu, Baoyu Zhou, Chenyu You, Shijian Lu, Yiming Qiu, Fan Lai, Yuan Yuan, Yao Li, Junyuan Hong, Ruihao Zhu, Beidi Chen, Alex Pentland, Ang Chen, Mosharaf Chowdhury, Zechen Zhang
cs.AI

Zusammenfassung

Wissenschaftliche Publikationen komprimieren einen verzweigten, iterativen Forschungsprozess zu einer linearen Erzählung und verwerfen dabei den Großteil der unterwegs gemachten Entdeckungen. Diese Zusammenfassung verursacht zwei strukturelle Kosten: eine Erzählsteuer (Storytelling Tax), bei der gescheiterte Experimente, verworfenen Hypothesen und der verzweigte Forschungsprozess zugunsten einer linearen Erzählung entfernt werden; und eine Ingenieurssteuer (Engineering Tax), bei der die Lücke zwischen für Gutachter ausreichender Prosa und für Agenten ausreichenden Spezifikationen kritische Implementierungsdetails ungeschrieben lässt. Für menschliche Leser tolerierbar, werden diese Kosten kritisch, wenn KI-Agenten veröffentlichte Arbeiten verstehen, reproduzieren und erweitern müssen. Wir stellen das Agent-Native Research Artifact (ARA) vor, ein Protokoll, das die narrative Arbeit durch ein maschinenausführbares Forschungspaket ersetzt, das um vier Ebenen strukturiert ist: wissenschaftliche Logik, ausführbarer Code mit vollständigen Spezifikationen, ein Explorationsgraph, der die bei der Kompilierung verworfenen Fehlschläge bewahrt, und Evidenz, die jede Behauptung in Rohdaten verankert. Drei Mechanismen stützen das Ökosystem: ein Live Research Manager, der Entscheidungen und Sackgassen während der normalen Entwicklung erfasst; ein ARA-Compiler, der Legacy-PDFs und Repositories in ARAs übersetzt; und ein ARA-natives Begutachtungssystem, das objektive Prüfungen automatisiert, damit menschliche Gutachter sich auf Bedeutung, Neuheit und Urteilsvermögen konzentrieren können. Auf PaperBench und RE-Bench steigert ARA die Genauigkeit bei der Beantwortung von Fragen von 72,4 % auf 93,7 % und die Reproduktionserfolgsrate von 57,4 % auf 64,4 %. Bei den fünf offenen Erweiterungsaufgaben von RE-Beschleunigen die in ARA erhaltenen Fehlverlaufsspuren den Fortschritt, können aber je nach Fähigkeiten des Agenten auch einen fähigen Agenten daran hindern, über den vorgegebenen Rahmen hinauszugehen.
English
Scientific publication compresses a branching, iterative research process into a linear narrative, discarding the majority of what was discovered along the way. This compilation imposes two structural costs: a Storytelling Tax, where failed experiments, rejected hypotheses, and the branching exploration process are discarded to fit a linear narrative; and an Engineering Tax, where the gap between reviewer-sufficient prose and agent-sufficient specification leaves critical implementation details unwritten. Tolerable for human readers, these costs become critical when AI agents must understand, reproduce, and extend published work. We introduce the Agent-Native Research Artifact (ARA), a protocol that replaces the narrative paper with a machine-executable research package structured around four layers: scientific logic, executable code with full specifications, an exploration graph that preserves the failures compilation discards, and evidence grounding every claim in raw outputs. Three mechanisms support the ecosystem: a Live Research Manager that captures decisions and dead ends during ordinary development; an ARA Compiler that translates legacy PDFs and repos into ARAs; and an ARA-native review system that automates objective checks so human reviewers can focus on significance, novelty, and taste. On PaperBench and RE-Bench, ARA raises question-answering accuracy from 72.4% to 93.7% and reproduction success from 57.4% to 64.4%. On RE-Bench's five open-ended extension tasks, preserved failure traces in ARA accelerate progress, but can also constrain a capable agent from stepping outside the prior-run box depending on the agent's capabilities.
PDF51May 2, 2026