O Último Artigo Escrito por Humanos: Artefatos de Pesquisa Nativos de Agentes
The Last Human-Written Paper: Agent-Native Research Artifacts
April 29, 2026
Autores: Jiachen Liu, Jiaxin Pei, Jintao Huang, Chenglei Si, Ao Qu, Xiangru Tang, Runyu Lu, Lichang Chen, Xiaoyan Bai, Haizhong Zheng, Carl Chen, Zhiyang Chen, Haojie Ye, Yujuan Fu, Zexue He, Zijian Jin, Zhenyu Zhang, Shangquan Sun, Maestro Harmon, John Dianzhuo Wang, Jianqiao Zeng, Jiachen Sun, Mingyuan Wu, Baoyu Zhou, Chenyu You, Shijian Lu, Yiming Qiu, Fan Lai, Yuan Yuan, Yao Li, Junyuan Hong, Ruihao Zhu, Beidi Chen, Alex Pentland, Ang Chen, Mosharaf Chowdhury, Zechen Zhang
cs.AI
Resumo
A publicação científica comprime um processo de pesquisa ramificado e iterativo numa narrativa linear, descartando a maioria das descobertas realizadas ao longo do caminho. Esta compilação impõe dois custos estruturais: um Imposto Narrativo, onde experiências falhadas, hipóteses rejeitadas e o processo de exploração ramificado são descartados para caber numa narrativa linear; e um Imposto de Engenharia, onde o fosso entre a prosa suficiente para revisores e a especificação suficiente para agentes deixa detalhes críticos de implementação por escrever. Toleráveis para leitores humanos, estes custos tornam-se críticos quando agentes de IA devem compreender, reproduzir e expandir trabalhos publicados. Introduzimos o Artefacto de Pesquisa Nativo para Agentes (Agent-Native Research Artifact - ARA), um protocolo que substitui o artigo narrativo por um pacote de pesquisa executável por máquina, estruturado em torno de quatro camadas: lógica científica, código executável com especificações completas, um gráfico de exploração que preserva os fracassos que a compilação descarta, e evidências que fundamentam cada afirmação em resultados brutos. Três mecanismos suportam o ecossistema: um Gestor de Pesquisa em Tempo Real que captura decisões e becos sem saída durante o desenvolvimento normal; um Compilador ARA que traduz PDFs e repositórios legados em ARAs; e um sistema de revisão nativo para ARA que automatiza verificações objetivas para que os revisores humanos se possam focar na significância, novidade e mérito. No PaperBench e no RE-Bench, o ARA aumenta a precisão na resposta a perguntas de 72.4% para 93.7% e a taxa de sucesso de reprodução de 57.4% para 64.4%. Nas cinco tarefas de extensão de resposta aberta do RE-Bench, os rastos de falhas preservados no ARA aceleram o progresso, mas também podem limitar um agente capaz de sair da caixa de execuções anteriores, dependendo das capacidades do agente.
English
Scientific publication compresses a branching, iterative research process into a linear narrative, discarding the majority of what was discovered along the way. This compilation imposes two structural costs: a Storytelling Tax, where failed experiments, rejected hypotheses, and the branching exploration process are discarded to fit a linear narrative; and an Engineering Tax, where the gap between reviewer-sufficient prose and agent-sufficient specification leaves critical implementation details unwritten. Tolerable for human readers, these costs become critical when AI agents must understand, reproduce, and extend published work. We introduce the Agent-Native Research Artifact (ARA), a protocol that replaces the narrative paper with a machine-executable research package structured around four layers: scientific logic, executable code with full specifications, an exploration graph that preserves the failures compilation discards, and evidence grounding every claim in raw outputs. Three mechanisms support the ecosystem: a Live Research Manager that captures decisions and dead ends during ordinary development; an ARA Compiler that translates legacy PDFs and repos into ARAs; and an ARA-native review system that automates objective checks so human reviewers can focus on significance, novelty, and taste. On PaperBench and RE-Bench, ARA raises question-answering accuracy from 72.4% to 93.7% and reproduction success from 57.4% to 64.4%. On RE-Bench's five open-ended extension tasks, preserved failure traces in ARA accelerate progress, but can also constrain a capable agent from stepping outside the prior-run box depending on the agent's capabilities.