O Último Artigo Escrito por Humanos: Artefatos de Pesquisa Nativos de Agentes

Resumo

A publicação científica comprime um processo de pesquisa ramificado e iterativo numa narrativa linear, descartando a maioria das descobertas realizadas ao longo do caminho. Esta compilação impõe dois custos estruturais: um Imposto Narrativo, onde experiências falhadas, hipóteses rejeitadas e o processo de exploração ramificado são descartados para caber numa narrativa linear; e um Imposto de Engenharia, onde o fosso entre a prosa suficiente para revisores e a especificação suficiente para agentes deixa detalhes críticos de implementação por escrever. Toleráveis para leitores humanos, estes custos tornam-se críticos quando agentes de IA devem compreender, reproduzir e expandir trabalhos publicados. Introduzimos o Artefacto de Pesquisa Nativo para Agentes (Agent-Native Research Artifact - ARA), um protocolo que substitui o artigo narrativo por um pacote de pesquisa executável por máquina, estruturado em torno de quatro camadas: lógica científica, código executável com especificações completas, um gráfico de exploração que preserva os fracassos que a compilação descarta, e evidências que fundamentam cada afirmação em resultados brutos. Três mecanismos suportam o ecossistema: um Gestor de Pesquisa em Tempo Real que captura decisões e becos sem saída durante o desenvolvimento normal; um Compilador ARA que traduz PDFs e repositórios legados em ARAs; e um sistema de revisão nativo para ARA que automatiza verificações objetivas para que os revisores humanos se possam focar na significância, novidade e mérito. No PaperBench e no RE-Bench, o ARA aumenta a precisão na resposta a perguntas de 72.4% para 93.7% e a taxa de sucesso de reprodução de 57.4% para 64.4%. Nas cinco tarefas de extensão de resposta aberta do RE-Bench, os rastos de falhas preservados no ARA aceleram o progresso, mas também podem limitar um agente capaz de sair da caixa de execuções anteriores, dependendo das capacidades do agente.

English

Scientific publication compresses a branching, iterative research process into a linear narrative, discarding the majority of what was discovered along the way. This compilation imposes two structural costs: a Storytelling Tax, where failed experiments, rejected hypotheses, and the branching exploration process are discarded to fit a linear narrative; and an Engineering Tax, where the gap between reviewer-sufficient prose and agent-sufficient specification leaves critical implementation details unwritten. Tolerable for human readers, these costs become critical when AI agents must understand, reproduce, and extend published work. We introduce the Agent-Native Research Artifact (ARA), a protocol that replaces the narrative paper with a machine-executable research package structured around four layers: scientific logic, executable code with full specifications, an exploration graph that preserves the failures compilation discards, and evidence grounding every claim in raw outputs. Three mechanisms support the ecosystem: a Live Research Manager that captures decisions and dead ends during ordinary development; an ARA Compiler that translates legacy PDFs and repos into ARAs; and an ARA-native review system that automates objective checks so human reviewers can focus on significance, novelty, and taste. On PaperBench and RE-Bench, ARA raises question-answering accuracy from 72.4% to 93.7% and reproduction success from 57.4% to 64.4%. On RE-Bench's five open-ended extension tasks, preserved failure traces in ARA accelerate progress, but can also constrain a capable agent from stepping outside the prior-run box depending on the agent's capabilities.

O Último Artigo Escrito por Humanos: Artefatos de Pesquisa Nativos de Agentes

The Last Human-Written Paper: Agent-Native Research Artifacts

Resumo

Support