ChatPaper.aiChatPaper

MDAgent2: Большая языковая модель для генерации кода и вопросно-ответных систем в области молекулярной динамики

MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics

January 5, 2026
Авторы: Zhuofan Shi, Hubao A, Yufei Shao, Mengyan Dai, Yadong Yu, Pan Xiang, Dongliang Huang, Hongxu An, Chunxiao Xin, Haiyang Shen, Zhenyu Wang, Yunshan Na, Gang Huang, Xiang Jing
cs.AI

Аннотация

Молекулярно-динамическое (МД) моделирование играет ключевую роль в понимании атомарного поведения в материаловедении, однако написание скриптов для LAMMPS остается узкоспециализированной и трудоемкой задачей. Хотя большие языковые модели (LLM) демонстрируют потенциал в генерации кода и ответах на предметные вопросы, их эффективность в сценариях МД ограничена недостатком предметных данных, высокой стоимостью развертывания современных LLM и низкой исполнимостью кода. Развивая нашу предыдущую разработку MDAgent, мы представляем MDAgent2 — первую end-to-end систему, способную выполнять как вопросно-ответные задачи, так и генерацию кода в области МД. Мы создали предметный конвейер построения данных, который генерирует три высококачественных набора данных: по знаниям МД, вопросно-ответным задачам и генерации кода. На основе этих данных мы применяем трехэтапную стратегию пост-обучения — продолженное предварительное обучение (CPT), контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL) — для тренировки двух адаптированных моделей: MD-Instruct и MD-Code. Кроме того, мы представляем MD-GRPO — метод RL с замкнутым контуром, который использует результаты симуляции в качестве сигналов вознаграждения и перерабатывает траектории с низким вознаграждением для постоянного улучшения. Мы также создали MDAgent2-RUNTIME — развертываемую мульти-агентную систему, объединяющую генерацию, выполнение, оценку и самокоррекцию кода. Вместе с предложенным в данной работе MD-EvalBench — первым бенчмарком для генерации кода LAMMPS и вопросно-ответных задач — наши модели и система превосходят по производительности несколько сильных базовых методов. Данная работа систематически демонстрирует адаптивность и способность к обобщению больших языковых моделей в промышленных задачах моделирования, закладывая методологическую основу для автоматической генерации кода в области ИИ для науки и промышленного моделирования. URL: https://github.com/FredericVAN/PKU_MDAgent2
English
Molecular dynamics (MD) simulations are essential for understanding atomic-scale behaviors in materials science, yet writing LAMMPS scripts remains highly specialized and time-consuming tasks. Although LLMs show promise in code generation and domain-specific question answering, their performance in MD scenarios is limited by scarce domain data, the high deployment cost of state-of-the-art LLMs, and low code executability. Building upon our prior MDAgent, we present MDAgent2, the first end-to-end framework capable of performing both knowledge Q&A and code generation within the MD domain. We construct a domain-specific data-construction pipeline that yields three high-quality datasets spanning MD knowledge, question answering, and code generation. Based on these datasets, we adopt a three stage post-training strategy--continued pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL)--to train two domain-adapted models, MD-Instruct and MD-Code. Furthermore, we introduce MD-GRPO, a closed-loop RL method that leverages simulation outcomes as reward signals and recycles low-reward trajectories for continual refinement. We further build MDAgent2-RUNTIME, a deployable multi-agent system that integrates code generation, execution, evaluation, and self-correction. Together with MD-EvalBench proposed in this work, the first benchmark for LAMMPS code generation and question answering, our models and system achieve performance surpassing several strong baselines.This work systematically demonstrates the adaptability and generalization capability of large language models in industrial simulation tasks, laying a methodological foundation for automatic code generation in AI for Science and industrial-scale simulations. URL: https://github.com/FredericVAN/PKU_MDAgent2
PDF61January 9, 2026