ChatPaper.aiChatPaper

AION-1 : Modèle Fondamental Omnimodal pour les Sciences Astronomiques

AION-1: Omnimodal Foundation Model for Astronomical Sciences

October 20, 2025
papers.authors: Liam Parker, Francois Lanusse, Jeff Shen, Ollie Liu, Tom Hehir, Leopoldo Sarra, Lucas Meyer, Micah Bowles, Sebastian Wagner-Carena, Helen Qu, Siavash Golkar, Alberto Bietti, Hatim Bourfoune, Nathan Casserau, Pierre Cornette, Keiya Hirashima, Geraud Krawezik, Ruben Ohana, Nicholas Lourie, Michael McCabe, Rudy Morel, Payel Mukhopadhyay, Mariel Pettee, Bruno Regaldo-Saint Blancard, Kyunghyun Cho, Miles Cranmer, Shirley Ho
cs.AI

papers.abstract

Bien que les modèles de fondation aient montré des résultats prometteurs dans divers domaines, l'astronomie manque encore d'un cadre unifié pour la modélisation conjointe de ses modalités de données hautement diversifiées. Dans cet article, nous présentons AION-1, une famille de modèles de fondation multimodaux à grande échelle pour l'astronomie. AION-1 intègre des données hétérogènes d'imagerie, spectroscopiques et scalaires en utilisant une architecture en deux étapes : une tokenisation spécifique à chaque modalité suivie d'une modélisation masquée basée sur des transformateurs de séquences de tokens intermodales. Le modèle est pré-entraîné sur cinq grands relevés : Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) et Gaia. Ces relevés couvrent plus de 200 millions d'observations d'étoiles, de galaxies et de quasars. Avec un seul encodeur figé, AION-1 obtient des résultats solides sur un large éventail de tâches en aval, notamment l'estimation des propriétés des galaxies et des étoiles, la classification de la morphologie des galaxies, la recherche basée sur la similarité, la segmentation d'images de galaxies et la super-résolution spectrale. Nous publions des variantes du modèle AION-1 allant de 300 millions à 3,1 milliards de paramètres. Au-delà de l'astronomie, AION-1 fournit un modèle évolutif pour les modèles de fondation scientifiques multimodaux capables d'intégrer de manière transparente des observations bruyantes et spécifiques à l'instrument. Tous les codes, tokenizers, poids pré-entraînés et une suite d'évaluation légère sont publiés sous une licence open-source.
English
While foundation models have shown promise across a variety of fields, astronomy still lacks a unified framework for joint modeling across its highly diverse data modalities. In this paper, we present AION-1, a family of large-scale multimodal foundation models for astronomy. AION-1 integrates heterogeneous imaging, spectroscopic, and scalar data using a two-stage architecture: modality-specific tokenization followed by transformer-based masked modeling of cross-modal token sequences. The model is pretrained on five large-scale surveys: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI), and Gaia. These span more than 200 million observations of stars, galaxies, and quasars. With a single frozen encoder, AION-1 achieves strong results on a broad suite of downstream tasks, including galaxy and stellar property estimation, galaxy morphology classification, similarity-based retrieval, galaxy image segmentation, and spectral super-resolution. We release AION-1 model variants ranging from 300 M to 3.1 B parameters. Beyond astronomy, AION-1 provides a scalable blueprint for multimodal scientific foundation models that can seamlessly integrate noisy, instrument-specific observations. All code, tokenizers, pretrained weights, and a lightweight evaluation suite are released under an open-source license.
PDF252October 22, 2025