Колодец: крупномасштабная коллекция разнообразных физических симуляций для машинного обучения
The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning
November 30, 2024
Авторы: Ruben Ohana, Michael McCabe, Lucas Meyer, Rudy Morel, Fruzsina J. Agocs, Miguel Beneitez, Marsha Berger, Blakesley Burkhart, Stuart B. Dalziel, Drummond B. Fielding, Daniel Fortunato, Jared A. Goldberg, Keiya Hirashima, Yan-Fei Jiang, Rich R. Kerswell, Suryanarayana Maddu, Jonah Miller, Payel Mukhopadhyay, Stefan S. Nixon, Jeff Shen, Romain Watteaux, Bruno Régaldo-Saint Blancard, François Rozet, Liam H. Parker, Miles Cranmer, Shirley Ho
cs.AI
Аннотация
Суррогатные модели на основе машинного обучения предоставляют исследователям мощные инструменты для ускорения рабочих процессов на основе симуляций. Однако, поскольку стандартные наборы данных в этой области часто охватывают небольшие классы физического поведения, может быть сложно оценить эффективность новых подходов. Для решения этого пробела мы представляем Well: крупномасштабную коллекцию наборов данных, содержащих числовые симуляции широкого спектра пространственно-временных физических систем. Well использует знания экспертов в области и разработчиков численного программного обеспечения для предоставления 15 ТБ данных по 16 наборам, охватывающих разнообразные области, такие как биологические системы, динамика жидкостей, акустическое рассеяние, а также магнитогидродинамические симуляции экстрагалактических жидкостей или взрывы сверхновых. Эти наборы данных могут использоваться как индивидуально, так и в рамках более широкого набора тестов. Для облегчения использования Well мы предоставляем унифицированный интерфейс PyTorch для обучения и оценки моделей. Мы демонстрируем функционал этой библиотеки, представляя примеры базовых уровней, которые выделяют новые вызовы, представленные сложной динамикой Well. Код и данные доступны по ссылке https://github.com/PolymathicAI/the_well.
English
Machine learning based surrogate models offer researchers powerful tools for
accelerating simulation-based workflows. However, as standard datasets in this
space often cover small classes of physical behavior, it can be difficult to
evaluate the efficacy of new approaches. To address this gap, we introduce the
Well: a large-scale collection of datasets containing numerical simulations of
a wide variety of spatiotemporal physical systems. The Well draws from domain
experts and numerical software developers to provide 15TB of data across 16
datasets covering diverse domains such as biological systems, fluid dynamics,
acoustic scattering, as well as magneto-hydrodynamic simulations of
extra-galactic fluids or supernova explosions. These datasets can be used
individually or as part of a broader benchmark suite. To facilitate usage of
the Well, we provide a unified PyTorch interface for training and evaluating
models. We demonstrate the function of this library by introducing example
baselines that highlight the new challenges posed by the complex dynamics of
the Well. The code and data is available at
https://github.com/PolymathicAI/the_well.Summary
AI-Generated Summary