Externaliseren van onderzoekssynthese en -validatie bij AI-wetenschappers via een onderzoeksharnas

Samenvatting

AI-systemen kunnen steeds vaker wetenschappelijke workflows automatiseren, maar de redenering die eerder bewijs, gegenereerde ideeën, experimenten en uiteindelijke beweringen met elkaar verbindt, blijft vaak impliciet binnen modelinferentie. Hier introduceren we Xcientist, een onderzoeksframework dat onderzoekssynthese en experimentele validatie externaliseert tot inspecteerbare, contractgestuurde processen. Xcientist organiseert literatuurbewijs, ideetoestanden, implementatieplannen, ablatieregistraties en herstelsporen als blijvende onderzoeksartefacten, zodat gegenereerde mechanismen kunnen worden onderbouwd, uitgevoerd, getest en herzien zonder hun bewijsbasis te verliezen. We identificeren claimdrift als een faalmodus van geautomatiseerd onderzoek, waarbij uitvoerbare artefacten niet langer het oorspronkelijk geclaimde mechanisme ondersteunen. In trainingsvrije geheugensystemen, grafgestructureerde verkeersvoorspelling en multischaal fysica-geïnformeerde neurale netwerken behoudt Xcientist traceerbare trajecten van probleemformulering tot mechanismeontwerp, validatie en begrensde herziening. Deze resultaten suggereren dat AI-wetenschappers niet alleen moeten worden beoordeeld op hun uiteindelijke artefacten, maar ook op de vraag of hun synthese- en validatieprocessen toerekenbaar, inspecteerbaar en wetenschappelijk verantwoord blijven.

English

AI systems can increasingly automate scientific workflows, but the reasoning that links prior evidence, generated ideas, experiments and final claims often remains implicit inside model inference. Here we introduce Xcientist, a research harness that externalizes research synthesis and experimental validation into inspectable, contract-governed processes. Xcientist organizes literature evidence, idea states, implementation plans, ablation records and repair traces as persistent research artifacts, so that generated mechanisms can be grounded, executed, tested and revised without losing their evidential basis. We identify claim drift as a failure mode of automated research, where runnable artifacts no longer support the mechanism originally claimed. Across training-free memory systems, graph-structured traffic forecasting and multi-scale physics-informed neural networks, Xcientist preserves traceable trajectories from problem formulation to mechanism design, validation and bounded revision. These results suggest that AI scientists should be evaluated not only by their final artifacts, but by whether their synthesis and validation processes remain attributable, inspectable and scientifically accountable.