Экстернализация синтеза и валидации исследований в ИИ-ученых с помощью исследовательской платформы

Аннотация

Системы искусственного интеллекта всё чаще способны автоматизировать научные рабочие процессы, однако рассуждения, связывающие предшествующие данные, сгенерированные идеи, эксперименты и итоговые утверждения, зачастую остаются неявными в процессе вывода модели. Здесь мы представляем Xcientist — исследовательскую платформу, которая выносит синтез и экспериментальную проверку результатов во внешний, проверяемый процесс, регулируемый контрактами. Xcientist организует литературные данные, состояния идей, планы реализации, записи абляции и трассы исправлений в виде постоянных исследовательских артефактов, благодаря чему сгенерированные механизмы могут быть обоснованы, выполнены, протестированы и пересмотрены без утраты своей доказательной базы. Мы определяем дрейф утверждений как режим отказа автоматизированных исследований, при котором исполняемые артефакты больше не поддерживают исходно заявленный механизм. Для систем памяти без обучения, графовых структур прогнозирования трафика и многослойных физически-информированных нейронных сетей Xcientist сохраняет отслеживаемые траектории от формулировки задачи до разработки механизма, его проверки и ограниченной коррекции. Эти результаты позволяют предположить, что ИИ-учёных следует оценивать не только по конечным артефактам, но и по тому, остаются ли их процессы синтеза и валидации атрибутируемыми, проверяемыми и научно подотчётными.

English

AI systems can increasingly automate scientific workflows, but the reasoning that links prior evidence, generated ideas, experiments and final claims often remains implicit inside model inference. Here we introduce Xcientist, a research harness that externalizes research synthesis and experimental validation into inspectable, contract-governed processes. Xcientist organizes literature evidence, idea states, implementation plans, ablation records and repair traces as persistent research artifacts, so that generated mechanisms can be grounded, executed, tested and revised without losing their evidential basis. We identify claim drift as a failure mode of automated research, where runnable artifacts no longer support the mechanism originally claimed. Across training-free memory systems, graph-structured traffic forecasting and multi-scale physics-informed neural networks, Xcientist preserves traceable trajectories from problem formulation to mechanism design, validation and bounded revision. These results suggest that AI scientists should be evaluated not only by their final artifacts, but by whether their synthesis and validation processes remain attributable, inspectable and scientifically accountable.