Het Laatste Door Mensen Geschreven Artikel: Agent-Natieve Onderzoeksartefacten

Samenvatting

Wetenschappelijke publicatie perst een vertakkend, iteratief onderzoeksproces samen in een lineair narratief, waarbij het merendeel van wat onderweg werd ontdekt, wordt weggegooid. Deze compilatie legt twee structurele kosten op: een *Storytelling Tax*, waarbij mislukte experimenten, verworpen hypothesen en het vertakkende exploratieproces worden geschrapt om in een lineair verhaal te passen; en een *Engineering Tax*, waarbij de kloof tussen voor-reviewers-voldoende proza en voor-agenten-voldoende specificatie kritieke implementatiedetails onbeschreven laat. Deze kosten zijn draaglijk voor menselijke lezers, maar worden kritiek wanneer AI-agenten gepubliceerd werk moeten begrijpen, reproduceren en uitbreiden. Wij introduceren het *Agent-Native Research Artifact* (ARA), een protocol dat het narratieve artikel vervangt door een machine-uitvoerbaar onderzoekspakket, gestructureerd rond vier lagen: wetenschappelijke logica, uitvoerbare code met volledige specificaties, een exploratiegraaf die de mislukkingen bewaart die de compilatie wegwerp, en bewijs dat elke claim verankert in ruwe outputs. Drie mechanismen ondersteunen het ecosysteem: een *Live Research Manager* die beslissingen en doodlopende paden vastlegt tijdens gewone ontwikkeling; een *ARA Compiler* die legacy PDF's en repo's vertaalt naar ARA's; en een ARA-native beoordelingssysteem dat objectieve checks automatiseert, zodat menselijke reviewers zich kunnen richten op significantie, nieuwigheid en 'smaak'. Op PaperBench en RE-Bench verhoogt ARA de nauwkeurigheid van vraagbeantwoording van 72.4% naar 93.7% en het reproductiesucces van 57.4% naar 64.4%. Op RE-Bench's vijf open-ended uitbreidingstaken versnellen bewaarde mislukkingssporen in ARA de vooruitgang, maar kunnen een capabele agent ook beperken om buiten de eerder-gelopen paden te treden, afhankelijk van de capaciteiten van de agent.

English

Scientific publication compresses a branching, iterative research process into a linear narrative, discarding the majority of what was discovered along the way. This compilation imposes two structural costs: a Storytelling Tax, where failed experiments, rejected hypotheses, and the branching exploration process are discarded to fit a linear narrative; and an Engineering Tax, where the gap between reviewer-sufficient prose and agent-sufficient specification leaves critical implementation details unwritten. Tolerable for human readers, these costs become critical when AI agents must understand, reproduce, and extend published work. We introduce the Agent-Native Research Artifact (ARA), a protocol that replaces the narrative paper with a machine-executable research package structured around four layers: scientific logic, executable code with full specifications, an exploration graph that preserves the failures compilation discards, and evidence grounding every claim in raw outputs. Three mechanisms support the ecosystem: a Live Research Manager that captures decisions and dead ends during ordinary development; an ARA Compiler that translates legacy PDFs and repos into ARAs; and an ARA-native review system that automates objective checks so human reviewers can focus on significance, novelty, and taste. On PaperBench and RE-Bench, ARA raises question-answering accuracy from 72.4% to 93.7% and reproduction success from 57.4% to 64.4%. On RE-Bench's five open-ended extension tasks, preserved failure traces in ARA accelerate progress, but can also constrain a capable agent from stepping outside the prior-run box depending on the agent's capabilities.

Het Laatste Door Mensen Geschreven Artikel: Agent-Natieve Onderzoeksartefacten

The Last Human-Written Paper: Agent-Native Research Artifacts

Samenvatting

Support