研究ハーネスによるAI科学者における研究合成と検証の外部化
Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness
June 17, 2026
著者: Zijian Wang, Hanqi Li, Ziyue Yang, Zijian Hu, Shenghan Zuo, Yunzhe Zhang, Da Ma, Danyu Luo, Chenrun Wang, Jing Peng, Tiancheng Huang, Sijia Guo, Huayang Wang, Zichen Zhu, Senyu Han, Yilu Cao, Kai Yu, Lu Chen
cs.AI
要旨
AIシステムは科学ワークフローをますます自動化できるようになっているが、先行証拠、生成されたアイデア、実験、最終的な主張を結びつける推論は、多くの場合、モデル推論の中に暗黙のまま残されている。本稿では、研究統合と実験的検証を検査可能で契約に基づくプロセスとして外部化する研究ハーネス、Xcientistを紹介する。Xcientistは、文献証拠、アイデアの状態、実装計画、アブレーション記録、修復痕跡を永続的な研究アーティファクトとして整理する。これにより、生成されたメカニズムは、その証拠基盤を失うことなく、根拠づけ、実行、テスト、修正が可能となる。我々は、自動研究の故障モードとして主張ドリフトを特定する。これは、実行可能なアーティファクトがもはや当初主張されたメカニズムを支持しない状態である。学習不要のメモリシステム、グラフ構造交通予測、マルチスケール物理情報ニューラルネットワークの各分野において、Xcientistは問題定式化からメカニズム設計、検証、制限付き修正に至るまでのトレーサブルな軌跡を保持する。これらの結果は、AI科学者は最終的なアーティファクトだけでなく、その統合・検証プロセスが帰属可能、検査可能、そして科学的に説明責任を果たせるものであるかどうかによって評価されるべきであることを示唆している。
English
AI systems can increasingly automate scientific workflows, but the reasoning that links prior evidence, generated ideas, experiments and final claims often remains implicit inside model inference. Here we introduce Xcientist, a research harness that externalizes research synthesis and experimental validation into inspectable, contract-governed processes. Xcientist organizes literature evidence, idea states, implementation plans, ablation records and repair traces as persistent research artifacts, so that generated mechanisms can be grounded, executed, tested and revised without losing their evidential basis. We identify claim drift as a failure mode of automated research, where runnable artifacts no longer support the mechanism originally claimed. Across training-free memory systems, graph-structured traffic forecasting and multi-scale physics-informed neural networks, Xcientist preserves traceable trajectories from problem formulation to mechanism design, validation and bounded revision. These results suggest that AI scientists should be evaluated not only by their final artifacts, but by whether their synthesis and validation processes remain attributable, inspectable and scientifically accountable.