ChatPaper.aiChatPaper

O Poço: uma Coleção em Grande Escala de Simulações Físicas Diversas para Aprendizado de Máquina

The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

November 30, 2024
Autores: Ruben Ohana, Michael McCabe, Lucas Meyer, Rudy Morel, Fruzsina J. Agocs, Miguel Beneitez, Marsha Berger, Blakesley Burkhart, Stuart B. Dalziel, Drummond B. Fielding, Daniel Fortunato, Jared A. Goldberg, Keiya Hirashima, Yan-Fei Jiang, Rich R. Kerswell, Suryanarayana Maddu, Jonah Miller, Payel Mukhopadhyay, Stefan S. Nixon, Jeff Shen, Romain Watteaux, Bruno Régaldo-Saint Blancard, François Rozet, Liam H. Parker, Miles Cranmer, Shirley Ho
cs.AI

Resumo

Modelos substitutos baseados em aprendizado de máquina oferecem aos pesquisadores ferramentas poderosas para acelerar fluxos de trabalho baseados em simulação. No entanto, como conjuntos de dados padrão nesse espaço frequentemente abrangem pequenas classes de comportamento físico, pode ser difícil avaliar a eficácia de novas abordagens. Para abordar essa lacuna, apresentamos o Well: uma coleção em larga escala de conjuntos de dados contendo simulações numéricas de uma ampla variedade de sistemas físicos espaço-temporais. O Well se baseia em especialistas do domínio e desenvolvedores de software numérico para fornecer 15TB de dados em 16 conjuntos de dados que abrangem domínios diversos, como sistemas biológicos, dinâmica de fluidos, espalhamento acústico, bem como simulações magneto-hidrodinâmicas de fluidos extragalácticos ou explosões de supernovas. Esses conjuntos de dados podem ser usados individualmente ou como parte de uma suíte de benchmark mais ampla. Para facilitar o uso do Well, fornecemos uma interface unificada do PyTorch para treinar e avaliar modelos. Demonstramos a função desta biblioteca ao introduzir exemplos de baselines que destacam os novos desafios impostos pela dinâmica complexa do Well. O código e os dados estão disponíveis em https://github.com/PolymathicAI/the_well.
English
Machine learning based surrogate models offer researchers powerful tools for accelerating simulation-based workflows. However, as standard datasets in this space often cover small classes of physical behavior, it can be difficult to evaluate the efficacy of new approaches. To address this gap, we introduce the Well: a large-scale collection of datasets containing numerical simulations of a wide variety of spatiotemporal physical systems. The Well draws from domain experts and numerical software developers to provide 15TB of data across 16 datasets covering diverse domains such as biological systems, fluid dynamics, acoustic scattering, as well as magneto-hydrodynamic simulations of extra-galactic fluids or supernova explosions. These datasets can be used individually or as part of a broader benchmark suite. To facilitate usage of the Well, we provide a unified PyTorch interface for training and evaluating models. We demonstrate the function of this library by introducing example baselines that highlight the new challenges posed by the complex dynamics of the Well. The code and data is available at https://github.com/PolymathicAI/the_well.

Summary

AI-Generated Summary

PDF152December 3, 2024