MDAgent2 : Grand modèle de langage pour la génération de code et le système de questions-réponses sur les connaissances en dynamique moléculaire
MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics
January 5, 2026
papers.authors: Zhuofan Shi, Hubao A, Yufei Shao, Mengyan Dai, Yadong Yu, Pan Xiang, Dongliang Huang, Hongxu An, Chunxiao Xin, Haiyang Shen, Zhenyu Wang, Yunshan Na, Gang Huang, Xiang Jing
cs.AI
papers.abstract
Les simulations de dynamique moléculaire (DM) sont essentielles pour comprendre les comportements à l'échelle atomique en science des matériaux, mais l'écriture de scripts LAMMPS reste une tâche hautement spécialisée et chronophage. Bien que les LLM montrent des promesses dans la génération de code et le question-réponse spécialisé, leurs performances dans les scénarios de DM sont limitées par la rareté des données du domaine, le coût élevé de déploiement des LLM de pointe et la faible exécutabilité du code. En nous appuyant sur notre précédent MDAgent, nous présentons MDAgent2, le premier cadre de travail de bout en bout capable d'effectuer à la fois du Q&A de connaissances et de la génération de code dans le domaine de la DM. Nous construisons un pipeline de construction de données spécifique au domaine qui produit trois jeux de données de haute qualité couvrant les connaissances en DM, le question-réponse et la génération de code. Sur la base de ces jeux de données, nous adoptons une stratégie d'entraînement en trois étapes – pré-entraînement continu (CPT), fine-tuning supervisé (SFT) et apprentissage par renforcement (RL) – pour entraîner deux modèles adaptés au domaine, MD-Instruct et MD-Code. De plus, nous introduisons MD-GRPO, une méthode RL en boucle fermée qui utilise les résultats de simulation comme signaux de récompense et recycle les trajectoires à faible récompense pour un raffinement continu. Nous construisons également MDAgent2-RUNTIME, un système multi-agents déployable qui intègre la génération, l'exécution, l'évaluation et l'auto-correction du code. Associés à MD-EvalBench proposé dans ce travail, le premier benchmark pour la génération de code LAMMPS et le question-réponse, nos modèles et système atteignent des performances surpassant plusieurs bases de référence solides. Ce travail démontre systématiquement l'adaptabilité et la capacité de généralisation des grands modèles de langage dans les tâches de simulation industrielle, posant une base méthodologique pour la génération automatique de code dans l'IA pour la Science et les simulations à l'échelle industrielle. URL : https://github.com/FredericVAN/PKU_MDAgent2
English
Molecular dynamics (MD) simulations are essential for understanding atomic-scale behaviors in materials science, yet writing LAMMPS scripts remains highly specialized and time-consuming tasks. Although LLMs show promise in code generation and domain-specific question answering, their performance in MD scenarios is limited by scarce domain data, the high deployment cost of state-of-the-art LLMs, and low code executability. Building upon our prior MDAgent, we present MDAgent2, the first end-to-end framework capable of performing both knowledge Q&A and code generation within the MD domain. We construct a domain-specific data-construction pipeline that yields three high-quality datasets spanning MD knowledge, question answering, and code generation. Based on these datasets, we adopt a three stage post-training strategy--continued pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL)--to train two domain-adapted models, MD-Instruct and MD-Code. Furthermore, we introduce MD-GRPO, a closed-loop RL method that leverages simulation outcomes as reward signals and recycles low-reward trajectories for continual refinement. We further build MDAgent2-RUNTIME, a deployable multi-agent system that integrates code generation, execution, evaluation, and self-correction. Together with MD-EvalBench proposed in this work, the first benchmark for LAMMPS code generation and question answering, our models and system achieve performance surpassing several strong baselines.This work systematically demonstrates the adaptability and generalization capability of large language models in industrial simulation tasks, laying a methodological foundation for automatic code generation in AI for Science and industrial-scale simulations. URL: https://github.com/FredericVAN/PKU_MDAgent2