Externalisation de la synthèse et de la validation de la recherche chez les scientifiques en IA via un harnais de recherche

Résumé

Les systèmes d'IA peuvent de plus en plus automatiser les flux de travail scientifiques, mais le raisonnement qui relie les preuves antérieures, les idées générées, les expériences et les affirmations finales reste souvent implicite dans l'inférence du modèle. Nous présentons ici Xcientist, un cadre de recherche qui externalise la synthèse de recherche et la validation expérimentale en processus inspectables et régis par des contrats. Xcientist organise les preuves issues de la littérature, les états des idées, les plans de mise en œuvre, les enregistrements d'ablation et les traces de réparation sous forme d'artefacts de recherche persistants, de sorte que les mécanismes générés puissent être fondés, exécutés, testés et révisés sans perdre leur base probante. Nous identifions la dérive des affirmations comme un mode de défaillance de la recherche automatisée, où les artefacts exécutables ne soutiennent plus le mécanisme initialement affirmé. Dans des systèmes de mémoire sans entraînement, la prévision du trafic structurée en graphes et les réseaux de neurones informés par la physique multi-échelle, Xcientist préserve des trajectoires traçables depuis la formulation du problème jusqu'à la conception de mécanisme, la validation et la révision bornée. Ces résultats suggèrent que les scientifiques IA devraient être évalués non seulement sur leurs artefacts finaux, mais aussi sur le fait que leurs processus de synthèse et de validation restent attribuables, inspectables et scientifiquement responsables.

English

AI systems can increasingly automate scientific workflows, but the reasoning that links prior evidence, generated ideas, experiments and final claims often remains implicit inside model inference. Here we introduce Xcientist, a research harness that externalizes research synthesis and experimental validation into inspectable, contract-governed processes. Xcientist organizes literature evidence, idea states, implementation plans, ablation records and repair traces as persistent research artifacts, so that generated mechanisms can be grounded, executed, tested and revised without losing their evidential basis. We identify claim drift as a failure mode of automated research, where runnable artifacts no longer support the mechanism originally claimed. Across training-free memory systems, graph-structured traffic forecasting and multi-scale physics-informed neural networks, Xcientist preserves traceable trajectories from problem formulation to mechanism design, validation and bounded revision. These results suggest that AI scientists should be evaluated not only by their final artifacts, but by whether their synthesis and validation processes remain attributable, inspectable and scientifically accountable.