ScientistOne : Vers une recherche autonome de niveau humain via la chaîne de preuves

Résumé

Les agents de recherche autonomes produisent des solutions compétitives et des manuscrits à l'aspect professionnel, mais leurs résultats présentent des défaillances de vérifiabilité indétectables par une évaluation superficielle : citations fabriquées, scores irreproductibles et descriptions de méthodes divergentes de l'implémentation. Nous traitons ce problème via trois contributions. Premièrement, Chaîne de Preuve (CoE), un cadre de vérifiabilité exigeant que chaque affirmation soit traçable jusqu'à sa source de preuve. Deuxièmement, ScientistOne, un système de recherche autonome de bout en bout qui maintient des chaînes de preuve par construction tout au long de la revue de littérature, de la découverte de solutions et de la rédaction d'articles. Troisièmement, Audit CoE, un audit post-hoc dont les quatre contrôles d'intégrité – vérification des scores, violation des spécifications, vérification des références et alignement méthode-code – s'appliquent uniformément à tous les systèmes. Sur 75 articles couvrant cinq systèmes et cinq tâches de recherche de pointe, chaque baseline présente au moins un mode de défaillance systématique : les taux de références hallucinées atteignent 21 %, la vérification des scores réussit dans seulement 42 % des articles, et l'alignement méthode-code varie de 20 % à 80 %. ScientistOne obtient zéro référence hallucinée (0/337), une vérification parfaite des scores (12/12) et le plus haut alignement méthode-code (14/15), tout en égalant ou surpassant les performances des experts humains sur l'ensemble des cinq tâches. ScientistOne se généralise en outre à six tâches supplémentaires couvrant l'imagerie médicale, la reconnaissance fine, la perception 3D et la modélisation linguistique, atteignant l'état de l'art sur Parameter Golf et des médailles d'or sur les tâches MLE-Bench où les baselines échouent totalement.

English

Autonomous research agents produce competitive solutions and professional-looking manuscripts, yet their outputs contain verifiability failures undetectable by surface-level evaluation: fabricated citations, unreproducible scores, and method descriptions that diverge from the implementation. We address this through three contributions. First, Chain-of-Evidence (CoE), a verifiability framework requiring every claim to be traceable to its evidence source. Second, ScientistOne, an end-to-end autonomous research system that maintains evidence chains by construction throughout literature review, solution discovery, and paper writing. Third, CoE Audit, a post-hoc audit whose four integrity checks -- score verification, specification violation, reference verification, and method-code alignment -- apply uniformly to all systems. Across 75 papers spanning five systems and five frontier research tasks, every baseline exhibits at least one systematic failure mode: hallucinated reference rates reach 21%, score verification passes in as few as 42% of papers, and method-code alignment ranges from 20% to 80%. ScientistOne achieves zero hallucinated references (0/337), perfect score verification (12/12), and the highest method-code alignment (14/15), while matching or exceeding human expert performance on all five tasks. ScientistOne further generalizes to six additional tasks spanning medical imaging, fine-grained recognition, 3D perception, and language modeling, achieving state-of-the-art on Parameter Golf and gold medals on MLE-Bench tasks where baselines fail entirely.