L'Ultima Ricerca Scritta da un Umano: Artefatti di Ricerca Nativi degli Agenti
The Last Human-Written Paper: Agent-Native Research Artifacts
April 29, 2026
Autori: Jiachen Liu, Jiaxin Pei, Jintao Huang, Chenglei Si, Ao Qu, Xiangru Tang, Runyu Lu, Lichang Chen, Xiaoyan Bai, Haizhong Zheng, Carl Chen, Zhiyang Chen, Haojie Ye, Yujuan Fu, Zexue He, Zijian Jin, Zhenyu Zhang, Shangquan Sun, Maestro Harmon, John Dianzhuo Wang, Jianqiao Zeng, Jiachen Sun, Mingyuan Wu, Baoyu Zhou, Chenyu You, Shijian Lu, Yiming Qiu, Fan Lai, Yuan Yuan, Yao Li, Junyuan Hong, Ruihao Zhu, Beidi Chen, Alex Pentland, Ang Chen, Mosharaf Chowdhury, Zechen Zhang
cs.AI
Abstract
La pubblicazione scientifica comprime un processo di ricerca ramificato e iterativo in una narrazione lineare, scartando la maggior parte di quanto scoperto lungo il percorso. Questa sintesi impone due costi strutturali: una Tassa Narrativa, in cui esperimenti falliti, ipotesi scartate e il processo di esplorazione ramificato vengono eliminati per adattarsi a una narrazione lineare; e una Tassa Ingegneristica, in cui il divario tra una prosa sufficiente per i revisori e una specificazione sufficiente per gli agenti lascia dettagli implementativi critici non scritti. Tollerabili per i lettori umani, questi costi diventano critici quando agenti di IA devono comprendere, riprodurre ed estendere il lavoro pubblicato. Introduciamo l'Artifact di Ricerca Nativo per Agenti (ARA), un protocollo che sostituisce l'articolo narrativo con un pacchetto di ricerca eseguibile dalla macchina strutturato su quattro livelli: logica scientifica, codice eseguibile con specifiche complete, un grafo di esplorazione che preserva i fallimenti che la sintesi scarta, ed evidenze che ancorano ogni affermazione ai risultati grezzi. Tre meccanismi supportano l'ecosistema: un Gestore della Ricerca in Tempo Reale che cattura decisioni e vicoli ciechi durante lo sviluppo ordinario; un Compilatore ARA che traduce PDF e repository legacy in ARA; e un sistema di revisione nativo per ARA che automatizza i controlli oggettivi, permettendo ai revisori umani di concentrarsi su significato, novità e gusto. Su PaperBench e RE-Bench, ARA aumenta l'accuratezza nel rispondere a domande dal 72.4% al 93.7% e il successo di riproduzione dal 57.4% al 64.4%. Sui cinque compiti di estensione aperti di RE-Bench, le tracce dei fallimenti preservate in ARA accelerano i progressi, ma possono anche limitare un agente capace dal uscire dal solco delle esecuzioni precedenti, a seconda delle capacità dell'agente.
English
Scientific publication compresses a branching, iterative research process into a linear narrative, discarding the majority of what was discovered along the way. This compilation imposes two structural costs: a Storytelling Tax, where failed experiments, rejected hypotheses, and the branching exploration process are discarded to fit a linear narrative; and an Engineering Tax, where the gap between reviewer-sufficient prose and agent-sufficient specification leaves critical implementation details unwritten. Tolerable for human readers, these costs become critical when AI agents must understand, reproduce, and extend published work. We introduce the Agent-Native Research Artifact (ARA), a protocol that replaces the narrative paper with a machine-executable research package structured around four layers: scientific logic, executable code with full specifications, an exploration graph that preserves the failures compilation discards, and evidence grounding every claim in raw outputs. Three mechanisms support the ecosystem: a Live Research Manager that captures decisions and dead ends during ordinary development; an ARA Compiler that translates legacy PDFs and repos into ARAs; and an ARA-native review system that automates objective checks so human reviewers can focus on significance, novelty, and taste. On PaperBench and RE-Bench, ARA raises question-answering accuracy from 72.4% to 93.7% and reproduction success from 57.4% to 64.4%. On RE-Bench's five open-ended extension tasks, preserved failure traces in ARA accelerate progress, but can also constrain a capable agent from stepping outside the prior-run box depending on the agent's capabilities.