ChatPaper.aiChatPaper

De Put: een grootschalige verzameling van diverse natuurkundige simulaties voor Machine Learning.

The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

November 30, 2024
Auteurs: Ruben Ohana, Michael McCabe, Lucas Meyer, Rudy Morel, Fruzsina J. Agocs, Miguel Beneitez, Marsha Berger, Blakesley Burkhart, Stuart B. Dalziel, Drummond B. Fielding, Daniel Fortunato, Jared A. Goldberg, Keiya Hirashima, Yan-Fei Jiang, Rich R. Kerswell, Suryanarayana Maddu, Jonah Miller, Payel Mukhopadhyay, Stefan S. Nixon, Jeff Shen, Romain Watteaux, Bruno Régaldo-Saint Blancard, François Rozet, Liam H. Parker, Miles Cranmer, Shirley Ho
cs.AI

Samenvatting

Machine learning gebaseerde surrogaatmodellen bieden onderzoekers krachtige tools om simulatie-gebaseerde workflows te versnellen. Echter, aangezien standaard datasets op dit gebied vaak kleine klassen van fysiek gedrag bestrijken, kan het moeilijk zijn om de doeltreffendheid van nieuwe benaderingen te evalueren. Om deze kloof te overbruggen, introduceren we de Well: een grootschalige verzameling datasets met numerieke simulaties van een breed scala aan ruimtelijke en temporele fysische systemen. De Well put uit domeinexperts en numerieke softwareontwikkelaars om 15TB aan data te leveren over 16 datasets die diverse domeinen bestrijken zoals biologische systemen, vloeistofdynamica, akoestische verstrooiing, evenals magnetohydrodynamische simulaties van extragalactische vloeistoffen of supernova-explosies. Deze datasets kunnen afzonderlijk of als onderdeel van een breder benchmarkpakket worden gebruikt. Om het gebruik van de Well te vergemakkelijken, bieden we een uniforme PyTorch-interface voor het trainen en evalueren van modellen. We demonstreren de functionaliteit van deze bibliotheek door voorbeeldbaselines te introduceren die de nieuwe uitdagingen belichten die worden gesteld door de complexe dynamiek van de Well. De code en data zijn beschikbaar op https://github.com/PolymathicAI/the_well.
English
Machine learning based surrogate models offer researchers powerful tools for accelerating simulation-based workflows. However, as standard datasets in this space often cover small classes of physical behavior, it can be difficult to evaluate the efficacy of new approaches. To address this gap, we introduce the Well: a large-scale collection of datasets containing numerical simulations of a wide variety of spatiotemporal physical systems. The Well draws from domain experts and numerical software developers to provide 15TB of data across 16 datasets covering diverse domains such as biological systems, fluid dynamics, acoustic scattering, as well as magneto-hydrodynamic simulations of extra-galactic fluids or supernova explosions. These datasets can be used individually or as part of a broader benchmark suite. To facilitate usage of the Well, we provide a unified PyTorch interface for training and evaluating models. We demonstrate the function of this library by introducing example baselines that highlight the new challenges posed by the complex dynamics of the Well. The code and data is available at https://github.com/PolymathicAI/the_well.
PDF162December 3, 2024