AION-1: Modelo de Fundação Omnimodal para Ciências Astronômicas
AION-1: Omnimodal Foundation Model for Astronomical Sciences
October 20, 2025
Autores: Liam Parker, Francois Lanusse, Jeff Shen, Ollie Liu, Tom Hehir, Leopoldo Sarra, Lucas Meyer, Micah Bowles, Sebastian Wagner-Carena, Helen Qu, Siavash Golkar, Alberto Bietti, Hatim Bourfoune, Nathan Casserau, Pierre Cornette, Keiya Hirashima, Geraud Krawezik, Ruben Ohana, Nicholas Lourie, Michael McCabe, Rudy Morel, Payel Mukhopadhyay, Mariel Pettee, Bruno Regaldo-Saint Blancard, Kyunghyun Cho, Miles Cranmer, Shirley Ho
cs.AI
Resumo
Embora os modelos de base tenham demonstrado potencial em uma variedade de áreas, a astronomia ainda carece de uma estrutura unificada para modelagem conjunta em suas diversas modalidades de dados. Neste artigo, apresentamos o AION-1, uma família de modelos de base multimodais em grande escala para astronomia. O AION-1 integra dados heterogêneos de imagem, espectroscopia e escalares usando uma arquitetura de dois estágios: tokenização específica por modalidade seguida de modelagem mascarada baseada em transformadores de sequências de tokens multimodais. O modelo é pré-treinado em cinco grandes levantamentos: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) e Gaia. Esses levantamentos abrangem mais de 200 milhões de observações de estrelas, galáxias e quasares. Com um único codificador congelado, o AION-1 alcança resultados robustos em uma ampla gama de tarefas subsequentes, incluindo estimativa de propriedades de galáxias e estrelas, classificação de morfologia de galáxias, recuperação baseada em similaridade, segmentação de imagens de galáxias e super-resolução espectral. Lançamos variantes do modelo AION-1 que variam de 300 milhões a 3,1 bilhões de parâmetros. Além da astronomia, o AION-1 fornece um modelo escalável para modelos de base científicos multimodais que podem integrar de forma contínua observações ruidosas e específicas de instrumentos. Todo o código, tokenizadores, pesos pré-treinados e um conjunto leve de avaliação são disponibilizados sob uma licença de código aberto.
English
While foundation models have shown promise across a variety of fields,
astronomy still lacks a unified framework for joint modeling across its highly
diverse data modalities. In this paper, we present AION-1, a family of
large-scale multimodal foundation models for astronomy. AION-1 integrates
heterogeneous imaging, spectroscopic, and scalar data using a two-stage
architecture: modality-specific tokenization followed by transformer-based
masked modeling of cross-modal token sequences. The model is pretrained on five
large-scale surveys: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky
Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI), and Gaia. These
span more than 200 million observations of stars, galaxies, and quasars. With a
single frozen encoder, AION-1 achieves strong results on a broad suite of
downstream tasks, including galaxy and stellar property estimation, galaxy
morphology classification, similarity-based retrieval, galaxy image
segmentation, and spectral super-resolution. We release AION-1 model variants
ranging from 300 M to 3.1 B parameters. Beyond astronomy, AION-1 provides a
scalable blueprint for multimodal scientific foundation models that can
seamlessly integrate noisy, instrument-specific observations. All code,
tokenizers, pretrained weights, and a lightweight evaluation suite are released
under an open-source license.