ChatPaper.aiChatPaper

El Pozo: una amplia colección a gran escala de diversas simulaciones de física para el aprendizaje automático.

The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

November 30, 2024
Autores: Ruben Ohana, Michael McCabe, Lucas Meyer, Rudy Morel, Fruzsina J. Agocs, Miguel Beneitez, Marsha Berger, Blakesley Burkhart, Stuart B. Dalziel, Drummond B. Fielding, Daniel Fortunato, Jared A. Goldberg, Keiya Hirashima, Yan-Fei Jiang, Rich R. Kerswell, Suryanarayana Maddu, Jonah Miller, Payel Mukhopadhyay, Stefan S. Nixon, Jeff Shen, Romain Watteaux, Bruno Régaldo-Saint Blancard, François Rozet, Liam H. Parker, Miles Cranmer, Shirley Ho
cs.AI

Resumen

Los modelos sustitutos basados en aprendizaje automático ofrecen a los investigadores herramientas poderosas para acelerar flujos de trabajo basados en simulaciones. Sin embargo, dado que los conjuntos de datos estándar en este ámbito a menudo cubren pequeñas clases de comportamiento físico, puede resultar difícil evaluar la eficacia de nuevos enfoques. Para abordar esta brecha, presentamos el Well: una colección a gran escala de conjuntos de datos que contienen simulaciones numéricicas de una amplia variedad de sistemas físicos espacio-temporales. El Well se nutre de expertos en el dominio y desarrolladores de software numérico para proporcionar 15TB de datos distribuidos en 16 conjuntos que abarcan diversos dominios como sistemas biológicos, dinámica de fluidos, dispersión acústica, así como simulaciones magneto-hidrodinámicas de fluidos extragalácticos o explosiones de supernovas. Estos conjuntos de datos pueden utilizarse de forma individual o como parte de un conjunto de pruebas más amplio. Para facilitar el uso del Well, proporcionamos una interfaz unificada de PyTorch para entrenar y evaluar modelos. Demostramos la funcionalidad de esta biblioteca presentando ejemplos de líneas base que resaltan los nuevos desafíos planteados por la dinámica compleja del Well. El código y los datos están disponibles en https://github.com/PolymathicAI/the_well.
English
Machine learning based surrogate models offer researchers powerful tools for accelerating simulation-based workflows. However, as standard datasets in this space often cover small classes of physical behavior, it can be difficult to evaluate the efficacy of new approaches. To address this gap, we introduce the Well: a large-scale collection of datasets containing numerical simulations of a wide variety of spatiotemporal physical systems. The Well draws from domain experts and numerical software developers to provide 15TB of data across 16 datasets covering diverse domains such as biological systems, fluid dynamics, acoustic scattering, as well as magneto-hydrodynamic simulations of extra-galactic fluids or supernova explosions. These datasets can be used individually or as part of a broader benchmark suite. To facilitate usage of the Well, we provide a unified PyTorch interface for training and evaluating models. We demonstrate the function of this library by introducing example baselines that highlight the new challenges posed by the complex dynamics of the Well. The code and data is available at https://github.com/PolymathicAI/the_well.

Summary

AI-Generated Summary

PDF152December 3, 2024