ScientistOne: Hacia la Investigación Autónoma a Nivel Humano mediante Cadena de Evidencia

Resumen

Los agentes autónomos de investigación producen soluciones competitivas y manuscritos de aspecto profesional, pero sus resultados contienen fallas de verificabilidad indetectables mediante una evaluación superficial: citas inventadas, puntajes irreproducibles y descripciones de métodos que divergen de la implementación. Abordamos esto mediante tres contribuciones. Primero, Chain-of-Evidence (CoE), un marco de verificabilidad que exige que cada afirmación sea rastreable hasta su fuente de evidencia. Segundo, ScientistOne, un sistema de investigación autónomo de extremo a extremo que mantiene cadenas de evidencia por construcción a lo largo de la revisión de literatura, el descubrimiento de soluciones y la redacción de artículos. Tercero, CoE Audit, una auditoría post-hoc cuyas cuatro verificaciones de integridad —verificación de puntajes, violación de especificaciones, verificación de referencias y alineación método-código— se aplican uniformemente a todos los sistemas. En 75 artículos que abarcan cinco sistemas y cinco tareas de investigación de frontera, cada línea base presenta al menos un modo de falla sistemático: las tasas de referencias alucinadas alcanzan el 21%, la verificación de puntajes se supera en tan solo el 42% de los artículos, y la alineación método-código oscila entre el 20% y el 80%. ScientistOne logra cero referencias alucinadas (0/337), verificación perfecta de puntajes (12/12) y la alineación método-código más alta (14/15), a la vez que iguala o supera el rendimiento de expertos humanos en las cinco tareas. ScientistOne se generaliza además a seis tareas adicionales que abarcan imágenes médicas, reconocimiento de grano fino, percepción 3D y modelado de lenguaje, logrando el estado del arte en Parameter Golf y medallas de oro en tareas de MLE-Bench donde las líneas base fallan por completo.

English

Autonomous research agents produce competitive solutions and professional-looking manuscripts, yet their outputs contain verifiability failures undetectable by surface-level evaluation: fabricated citations, unreproducible scores, and method descriptions that diverge from the implementation. We address this through three contributions. First, Chain-of-Evidence (CoE), a verifiability framework requiring every claim to be traceable to its evidence source. Second, ScientistOne, an end-to-end autonomous research system that maintains evidence chains by construction throughout literature review, solution discovery, and paper writing. Third, CoE Audit, a post-hoc audit whose four integrity checks -- score verification, specification violation, reference verification, and method-code alignment -- apply uniformly to all systems. Across 75 papers spanning five systems and five frontier research tasks, every baseline exhibits at least one systematic failure mode: hallucinated reference rates reach 21%, score verification passes in as few as 42% of papers, and method-code alignment ranges from 20% to 80%. ScientistOne achieves zero hallucinated references (0/337), perfect score verification (12/12), and the highest method-code alignment (14/15), while matching or exceeding human expert performance on all five tasks. ScientistOne further generalizes to six additional tasks spanning medical imaging, fine-grained recognition, 3D perception, and language modeling, achieving state-of-the-art on Parameter Golf and gold medals on MLE-Bench tasks where baselines fail entirely.