ChatPaper.aiChatPaper

Le Puits : une vaste collection de simulations physiques diverses pour l'apprentissage automatique

The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

November 30, 2024
Auteurs: Ruben Ohana, Michael McCabe, Lucas Meyer, Rudy Morel, Fruzsina J. Agocs, Miguel Beneitez, Marsha Berger, Blakesley Burkhart, Stuart B. Dalziel, Drummond B. Fielding, Daniel Fortunato, Jared A. Goldberg, Keiya Hirashima, Yan-Fei Jiang, Rich R. Kerswell, Suryanarayana Maddu, Jonah Miller, Payel Mukhopadhyay, Stefan S. Nixon, Jeff Shen, Romain Watteaux, Bruno Régaldo-Saint Blancard, François Rozet, Liam H. Parker, Miles Cranmer, Shirley Ho
cs.AI

Résumé

Les modèles de substitution basés sur l'apprentissage automatique offrent aux chercheurs des outils puissants pour accélérer les flux de travail basés sur la simulation. Cependant, comme les ensembles de données standard dans ce domaine couvrent souvent de petites classes de comportements physiques, il peut être difficile d'évaluer l'efficacité de nouvelles approches. Pour combler cette lacune, nous présentons le Well : une collection à grande échelle d'ensembles de données contenant des simulations numériques d'une grande variété de systèmes physiques spatiotemporels. Le Well s'appuie sur des experts du domaine et des développeurs de logiciels numériques pour fournir 15 To de données réparties sur 16 ensembles de données couvrant des domaines divers tels que les systèmes biologiques, la dynamique des fluides, la diffusion acoustique, ainsi que les simulations magnétohydrodynamiques de fluides extragalactiques ou d'explosions de supernovae. Ces ensembles de données peuvent être utilisés individuellement ou dans le cadre d'une suite de référence plus large. Pour faciliter l'utilisation du Well, nous fournissons une interface PyTorch unifiée pour l'entraînement et l'évaluation des modèles. Nous démontrons le fonctionnement de cette bibliothèque en introduisant des bases d'exemples qui mettent en lumière les nouveaux défis posés par la dynamique complexe du Well. Le code et les données sont disponibles sur https://github.com/PolymathicAI/the_well.
English
Machine learning based surrogate models offer researchers powerful tools for accelerating simulation-based workflows. However, as standard datasets in this space often cover small classes of physical behavior, it can be difficult to evaluate the efficacy of new approaches. To address this gap, we introduce the Well: a large-scale collection of datasets containing numerical simulations of a wide variety of spatiotemporal physical systems. The Well draws from domain experts and numerical software developers to provide 15TB of data across 16 datasets covering diverse domains such as biological systems, fluid dynamics, acoustic scattering, as well as magneto-hydrodynamic simulations of extra-galactic fluids or supernova explosions. These datasets can be used individually or as part of a broader benchmark suite. To facilitate usage of the Well, we provide a unified PyTorch interface for training and evaluating models. We demonstrate the function of this library by introducing example baselines that highlight the new challenges posed by the complex dynamics of the Well. The code and data is available at https://github.com/PolymathicAI/the_well.

Summary

AI-Generated Summary

PDF152December 3, 2024