El Último Artículo Escrito por Humanos: Artefactos de Investigación Nativo-Agente
The Last Human-Written Paper: Agent-Native Research Artifacts
April 29, 2026
Autores: Jiachen Liu, Jiaxin Pei, Jintao Huang, Chenglei Si, Ao Qu, Xiangru Tang, Runyu Lu, Lichang Chen, Xiaoyan Bai, Haizhong Zheng, Carl Chen, Zhiyang Chen, Haojie Ye, Yujuan Fu, Zexue He, Zijian Jin, Zhenyu Zhang, Shangquan Sun, Maestro Harmon, John Dianzhuo Wang, Jianqiao Zeng, Jiachen Sun, Mingyuan Wu, Baoyu Zhou, Chenyu You, Shijian Lu, Yiming Qiu, Fan Lai, Yuan Yuan, Yao Li, Junyuan Hong, Ruihao Zhu, Beidi Chen, Alex Pentland, Ang Chen, Mosharaf Chowdhury, Zechen Zhang
cs.AI
Resumen
La publicación científica comprime un proceso de investigación ramificado e iterativo en una narrativa lineal, descartando la mayoría de lo descubierto en el camino. Esta compilación impone dos costes estructurales: un Impuesto Narrativo, donde los experimentos fallidos, las hipótesis rechazadas y el proceso de exploración ramificado se descartan para ajustarse a una narrativa lineal; y un Impuesto de Ingeniería, donde la brecha entre la prosa suficiente para los revisores y la especificación suficiente para los agentes deja detalles críticos de implementación sin documentar. Aunque son tolerables para lectores humanos, estos costes se vuelven críticos cuando los agentes de IA deben comprender, reproducir y extender el trabajo publicado. Presentamos el Artefacto de Investigación Nativo para Agentes (ARA), un protocolo que reemplaza el artículo narrativo con un paquete de investigación ejecutable por máquina estructurado en cuatro capas: lógica científica, código ejecutable con especificaciones completas, un gráfico de exploración que preserva los fracasos que la compilación descarta, y evidencia que fundamenta cada afirmación en resultados brutos. Tres mecanismos sustentan el ecosistema: un Gestor de Investigación en Vivo que captura decisiones y callejones sin salida durante el desarrollo ordinario; un Compilador ARA que traduce PDFs y repositorios heredados a ARAs; y un sistema de revisión nativo de ARA que automatiza las comprobaciones objetivas para que los revisores humanos puedan centrarse en la significancia, novedad y criterio. En PaperBench y RE-Bench, ARA aumenta la precisión en la respuesta a preguntas del 72.4% al 93.7% y el éxito en la reproducción del 57.4% al 64.4%. En las cinco tareas de extensión abierta de RE-Bench, los rastros de fracasos preservados en ARA aceleran el progreso, pero también pueden limitar a un agente capaz de salirse del marco de ejecuciones previas, dependiendo de las capacidades del agente.
English
Scientific publication compresses a branching, iterative research process into a linear narrative, discarding the majority of what was discovered along the way. This compilation imposes two structural costs: a Storytelling Tax, where failed experiments, rejected hypotheses, and the branching exploration process are discarded to fit a linear narrative; and an Engineering Tax, where the gap between reviewer-sufficient prose and agent-sufficient specification leaves critical implementation details unwritten. Tolerable for human readers, these costs become critical when AI agents must understand, reproduce, and extend published work. We introduce the Agent-Native Research Artifact (ARA), a protocol that replaces the narrative paper with a machine-executable research package structured around four layers: scientific logic, executable code with full specifications, an exploration graph that preserves the failures compilation discards, and evidence grounding every claim in raw outputs. Three mechanisms support the ecosystem: a Live Research Manager that captures decisions and dead ends during ordinary development; an ARA Compiler that translates legacy PDFs and repos into ARAs; and an ARA-native review system that automates objective checks so human reviewers can focus on significance, novelty, and taste. On PaperBench and RE-Bench, ARA raises question-answering accuracy from 72.4% to 93.7% and reproduction success from 57.4% to 64.4%. On RE-Bench's five open-ended extension tasks, preserved failure traces in ARA accelerate progress, but can also constrain a capable agent from stepping outside the prior-run box depending on the agent's capabilities.