AutoMat : Permettre la reconstruction automatisée de structures cristallines à partir de microscopie via l'utilisation d'outils agentiques
AutoMat: Enabling Automated Crystal Structure Reconstruction from Microscopy via Agentic Tool Use
May 19, 2025
Auteurs: Yaotian Yang, Yiwen Tang, Yizhe Chen, Xiao Chen, Jiangjie Qiu, Hao Xiong, Haoyu Yin, Zhiyao Luo, Yifei Zhang, Sijia Tao, Wentao Li, Qinghua Zhang, Yuqiang Li, Wanli Ouyang, Bin Zhao, Xiaonan Wang, Fei Wei
cs.AI
Résumé
Les potentiels interatomiques et champs de force basés sur l'apprentissage automatique dépendent de manière cruciale de structures atomiques précises, mais ces données sont rares en raison de la disponibilité limitée de cristaux résolus expérimentalement. Bien que la microscopie électronique à résolution atomique offre une source potentielle de données structurales, la conversion de ces images en formats prêts pour la simulation reste laborieuse et sujette à erreurs, créant un goulot d'étranglement pour l'entraînement et la validation des modèles. Nous présentons AutoMat, un pipeline de bout en bout assisté par agent qui transforme automatiquement les images de microscopie électronique en transmission à balayage (STEM) en structures cristallines atomiques et prédit leurs propriétés physiques. AutoMat combine un débruitage adaptatif aux motifs, une récupération de modèles guidée par la physique, une reconstruction atomique prenant en compte la symétrie, une relaxation rapide et une prédiction de propriétés via MatterSim, ainsi qu'une orchestration coordonnée de toutes les étapes. Nous proposons le premier benchmark dédié STEM2Mat-Bench pour cette tâche et évaluons les performances en utilisant l'erreur quadratique moyenne (RMSD) du réseau, l'erreur absolue moyenne (MAE) de l'énergie de formation et le taux de réussite de la correspondance des structures. En orchestrant des appels à des outils externes, AutoMat permet à un modèle de langage (LLM) textuel de surpasser les modèles vision-langage dans ce domaine, en réalisant un raisonnement en boucle fermée tout au long du pipeline. Dans des expériences à grande échelle sur 450 échantillons de structures, AutoMat surpasse largement les modèles de langage multimodaux et outils existants. Ces résultats valident à la fois AutoMat et STEM2Mat-Bench, marquant une étape clé vers le rapprochement de la microscopie et de la simulation atomique en science des matériaux. Le code et le jeu de données sont disponibles publiquement à l'adresse https://github.com/yyt-2378/AutoMat et https://huggingface.co/datasets/yaotianvector/STEM2Mat.
English
Machine learning-based interatomic potentials and force fields depend
critically on accurate atomic structures, yet such data are scarce due to the
limited availability of experimentally resolved crystals. Although
atomic-resolution electron microscopy offers a potential source of structural
data, converting these images into simulation-ready formats remains
labor-intensive and error-prone, creating a bottleneck for model training and
validation. We introduce AutoMat, an end-to-end, agent-assisted pipeline that
automatically transforms scanning transmission electron microscopy (STEM)
images into atomic crystal structures and predicts their physical properties.
AutoMat combines pattern-adaptive denoising, physics-guided template retrieval,
symmetry-aware atomic reconstruction, fast relaxation and property prediction
via MatterSim, and coordinated orchestration across all stages. We propose the
first dedicated STEM2Mat-Bench for this task and evaluate performance using
lattice RMSD, formation energy MAE, and structure-matching success rate. By
orchestrating external tool calls, AutoMat enables a text-only LLM to
outperform vision-language models in this domain, achieving closed-loop
reasoning throughout the pipeline. In large-scale experiments over 450
structure samples, AutoMat substantially outperforms existing multimodal large
language models and tools. These results validate both AutoMat and
STEM2Mat-Bench, marking a key step toward bridging microscopy and atomistic
simulation in materials science.The code and dataset are publicly available at
https://github.com/yyt-2378/AutoMat and
https://huggingface.co/datasets/yaotianvector/STEM2Mat.Summary
AI-Generated Summary