Le Dernier Article Écrit par un Humain : Artefacts de Recherche Natifs aux Agents
The Last Human-Written Paper: Agent-Native Research Artifacts
April 29, 2026
Auteurs: Jiachen Liu, Jiaxin Pei, Jintao Huang, Chenglei Si, Ao Qu, Xiangru Tang, Runyu Lu, Lichang Chen, Xiaoyan Bai, Haizhong Zheng, Carl Chen, Zhiyang Chen, Haojie Ye, Yujuan Fu, Zexue He, Zijian Jin, Zhenyu Zhang, Shangquan Sun, Maestro Harmon, John Dianzhuo Wang, Jianqiao Zeng, Jiachen Sun, Mingyuan Wu, Baoyu Zhou, Chenyu You, Shijian Lu, Yiming Qiu, Fan Lai, Yuan Yuan, Yao Li, Junyuan Hong, Ruihao Zhu, Beidi Chen, Alex Pentland, Ang Chen, Mosharaf Chowdhury, Zechen Zhang
cs.AI
Résumé
La publication scientifique compresse un processus de recherche itératif et ramifié en un récit linéaire, écartant la majorité des découvertes réalisées en cours de route. Cette compilation impose deux coûts structurels : une Taxe Narrative, où les expériences infructueuses, les hypothèses rejetées et le processus d'exploration ramifié sont abandonnés pour épouser un récit linéaire ; et une Taxe Ingénierie, où l'écart entre une prose suffisante pour les relecteurs et une spécification suffisante pour les agents laisse des détails de mise en œuvre critiques non écrits. Tolérables pour des lecteurs humains, ces coûts deviennent critiques lorsque des agents IA doivent comprendre, reproduire et étendre des travaux publiés. Nous présentons l'Artifact de Recherche Agent-Natif (ARAN), un protocole qui remplace l'article narratif par un package de recherche exécutable par une machine, structuré autour de quatre couches : la logique scientifique, le code exécutable avec ses spécifications complètes, un graphe d'exploration qui préserve les échecs que la compilation élimine, et des preuves ancrant chaque affirmation dans des résultats bruts. Trois mécanismes soutiennent l'écosystème : un Gestionnaire de Recherche Vivante qui capture les décisions et les impasses durant le développement habituel ; un Compilateur ARAN qui traduit les PDF et dépôts existants en ARAN ; et un système de relecture natif ARAN qui automatise les vérifications objectives pour permettre aux relecteurs humains de se concentrer sur la portée, la nouveauté et l'appréciation qualitative. Sur PaperBench et RE-Bench, ARAN améliore la précision des réponses aux questions de 72,4 % à 93,7 % et le taux de succès de reproduction de 57,4 % à 64,4 %. Sur les cinq tâches d'extension ouvertes de RE-Bench, les traces d'échec préservées dans l'ARAN accélèrent les progrès, mais peuvent aussi contraindre un agent compétent à ne pas sortir du cadre des exécutions antérieures, selon les capacités de l'agent.
English
Scientific publication compresses a branching, iterative research process into a linear narrative, discarding the majority of what was discovered along the way. This compilation imposes two structural costs: a Storytelling Tax, where failed experiments, rejected hypotheses, and the branching exploration process are discarded to fit a linear narrative; and an Engineering Tax, where the gap between reviewer-sufficient prose and agent-sufficient specification leaves critical implementation details unwritten. Tolerable for human readers, these costs become critical when AI agents must understand, reproduce, and extend published work. We introduce the Agent-Native Research Artifact (ARA), a protocol that replaces the narrative paper with a machine-executable research package structured around four layers: scientific logic, executable code with full specifications, an exploration graph that preserves the failures compilation discards, and evidence grounding every claim in raw outputs. Three mechanisms support the ecosystem: a Live Research Manager that captures decisions and dead ends during ordinary development; an ARA Compiler that translates legacy PDFs and repos into ARAs; and an ARA-native review system that automates objective checks so human reviewers can focus on significance, novelty, and taste. On PaperBench and RE-Bench, ARA raises question-answering accuracy from 72.4% to 93.7% and reproduction success from 57.4% to 64.4%. On RE-Bench's five open-ended extension tasks, preserved failure traces in ARA accelerate progress, but can also constrain a capable agent from stepping outside the prior-run box depending on the agent's capabilities.