ScientistOne: Rumo à Pesquisa Autônoma em Nível Humano via Cadeia de Evidências

Resumo

Agentes de pesquisa autônomos produzem soluções competitivas e manuscritos com aparência profissional, porém seus resultados contêm falhas de verificabilidade que são indetectáveis por avaliação superficial: citações fabricadas, pontuações irreproduzíveis e descrições de métodos que divergem da implementação. Abordamos isso por meio de três contribuições. Primeiro, a Cadeia de Evidências (CoE, do inglês *Chain-of-Evidence*), um framework de verificabilidade que exige que cada afirmação seja rastreável até sua fonte de evidência. Segundo, o ScientistOne, um sistema de pesquisa autônomo ponta a ponta que mantém cadeias de evidência por construção ao longo da revisão bibliográfica, descoberta de soluções e redação de artigos. Terceiro, a Auditoria CoE, uma auditoria *post-hoc* cujos quatro testes de integridade — verificação de pontuação, violação de especificação, verificação de referências e alinhamento método-código — aplicam-se uniformemente a todos os sistemas. Em 75 artigos abrangendo cinco sistemas e cinco tarefas de pesquisa de fronteira, cada linha de base exibe pelo menos um modo de falha sistemático: taxas de referência alucinada atingem 21%, a verificação de pontuação é aprovada em apenas 42% dos artigos, e o alinhamento método-código varia de 20% a 80%. O ScientistOne alcança zero referências alucinadas (0/337), verificação de pontuação perfeita (12/12) e o maior alinhamento método-código (14/15), igualando ou superando o desempenho de especialistas humanos em todas as cinco tarefas. O ScientistOne ainda generaliza para seis tarefas adicionais abrangendo imageamento médico, reconhecimento de granulação fina, percepção 3D e modelagem de linguagem, alcançando estado da arte no Parameter Golf e medalhas de ouro em tarefas do MLE-Bench onde as linhas de base falham completamente.

English

Autonomous research agents produce competitive solutions and professional-looking manuscripts, yet their outputs contain verifiability failures undetectable by surface-level evaluation: fabricated citations, unreproducible scores, and method descriptions that diverge from the implementation. We address this through three contributions. First, Chain-of-Evidence (CoE), a verifiability framework requiring every claim to be traceable to its evidence source. Second, ScientistOne, an end-to-end autonomous research system that maintains evidence chains by construction throughout literature review, solution discovery, and paper writing. Third, CoE Audit, a post-hoc audit whose four integrity checks -- score verification, specification violation, reference verification, and method-code alignment -- apply uniformly to all systems. Across 75 papers spanning five systems and five frontier research tasks, every baseline exhibits at least one systematic failure mode: hallucinated reference rates reach 21%, score verification passes in as few as 42% of papers, and method-code alignment ranges from 20% to 80%. ScientistOne achieves zero hallucinated references (0/337), perfect score verification (12/12), and the highest method-code alignment (14/15), while matching or exceeding human expert performance on all five tasks. ScientistOne further generalizes to six additional tasks spanning medical imaging, fine-grained recognition, 3D perception, and language modeling, achieving state-of-the-art on Parameter Golf and gold medals on MLE-Bench tasks where baselines fail entirely.