Externalización de la Síntesis y Validación de Investigación en Científicos de IA mediante un Arnés de Investigación

Resumen

Los sistemas de IA pueden automatizar cada vez más los flujos de trabajo científicos, pero el razonamiento que vincula la evidencia previa, las ideas generadas, los experimentos y las afirmaciones finales a menudo permanece implícito dentro de la inferencia del modelo. Aquí presentamos Xcientist, un arnés de investigación que externaliza la síntesis de investigaciones y la validación experimental en procesos inspeccionables y gobernados por contratos. Xcientist organiza la evidencia bibliográfica, los estados de las ideas, los planes de implementación, los registros de ablación y las trazas de reparación como artefactos de investigación persistentes, de modo que los mecanismos generados puedan fundamentarse, ejecutarse, probarse y revisarse sin perder su base probatoria. Identificamos la deriva de las afirmaciones como un modo de fallo en la investigación automatizada, donde los artefactos ejecutables ya no respaldan el mecanismo originalmente afirmado. En sistemas de memoria sin entrenamiento, predicción de tráfico estructurado en grafos y redes neuronales informadas por la física a múltiples escalas, Xcientist preserva trayectorias trazables desde la formulación del problema hasta el diseño, validación y revisión acotada del mecanismo. Estos resultados sugieren que los científicos de IA deberían evaluarse no solo por sus artefactos finales, sino por si sus procesos de síntesis y validación permanecen atribuibles, inspeccionables y científicamente responsables.

English

AI systems can increasingly automate scientific workflows, but the reasoning that links prior evidence, generated ideas, experiments and final claims often remains implicit inside model inference. Here we introduce Xcientist, a research harness that externalizes research synthesis and experimental validation into inspectable, contract-governed processes. Xcientist organizes literature evidence, idea states, implementation plans, ablation records and repair traces as persistent research artifacts, so that generated mechanisms can be grounded, executed, tested and revised without losing their evidential basis. We identify claim drift as a failure mode of automated research, where runnable artifacts no longer support the mechanism originally claimed. Across training-free memory systems, graph-structured traffic forecasting and multi-scale physics-informed neural networks, Xcientist preserves traceable trajectories from problem formulation to mechanism design, validation and bounded revision. These results suggest that AI scientists should be evaluated not only by their final artifacts, but by whether their synthesis and validation processes remain attributable, inspectable and scientifically accountable.