ChatPaper.aiChatPaper

AION-1: Modelo de Fundação Omnimodal para Ciências Astronômicas

AION-1: Omnimodal Foundation Model for Astronomical Sciences

October 20, 2025
Autores: Liam Parker, Francois Lanusse, Jeff Shen, Ollie Liu, Tom Hehir, Leopoldo Sarra, Lucas Meyer, Micah Bowles, Sebastian Wagner-Carena, Helen Qu, Siavash Golkar, Alberto Bietti, Hatim Bourfoune, Nathan Casserau, Pierre Cornette, Keiya Hirashima, Geraud Krawezik, Ruben Ohana, Nicholas Lourie, Michael McCabe, Rudy Morel, Payel Mukhopadhyay, Mariel Pettee, Bruno Regaldo-Saint Blancard, Kyunghyun Cho, Miles Cranmer, Shirley Ho
cs.AI

Resumo

Embora os modelos de base tenham demonstrado potencial em uma variedade de áreas, a astronomia ainda carece de uma estrutura unificada para modelagem conjunta em suas diversas modalidades de dados. Neste artigo, apresentamos o AION-1, uma família de modelos de base multimodais em grande escala para astronomia. O AION-1 integra dados heterogêneos de imagem, espectroscopia e escalares usando uma arquitetura de dois estágios: tokenização específica por modalidade seguida de modelagem mascarada baseada em transformadores de sequências de tokens multimodais. O modelo é pré-treinado em cinco grandes levantamentos: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) e Gaia. Esses levantamentos abrangem mais de 200 milhões de observações de estrelas, galáxias e quasares. Com um único codificador congelado, o AION-1 alcança resultados robustos em uma ampla gama de tarefas subsequentes, incluindo estimativa de propriedades de galáxias e estrelas, classificação de morfologia de galáxias, recuperação baseada em similaridade, segmentação de imagens de galáxias e super-resolução espectral. Lançamos variantes do modelo AION-1 que variam de 300 milhões a 3,1 bilhões de parâmetros. Além da astronomia, o AION-1 fornece um modelo escalável para modelos de base científicos multimodais que podem integrar de forma contínua observações ruidosas e específicas de instrumentos. Todo o código, tokenizadores, pesos pré-treinados e um conjunto leve de avaliação são disponibilizados sob uma licença de código aberto.
English
While foundation models have shown promise across a variety of fields, astronomy still lacks a unified framework for joint modeling across its highly diverse data modalities. In this paper, we present AION-1, a family of large-scale multimodal foundation models for astronomy. AION-1 integrates heterogeneous imaging, spectroscopic, and scalar data using a two-stage architecture: modality-specific tokenization followed by transformer-based masked modeling of cross-modal token sequences. The model is pretrained on five large-scale surveys: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI), and Gaia. These span more than 200 million observations of stars, galaxies, and quasars. With a single frozen encoder, AION-1 achieves strong results on a broad suite of downstream tasks, including galaxy and stellar property estimation, galaxy morphology classification, similarity-based retrieval, galaxy image segmentation, and spectral super-resolution. We release AION-1 model variants ranging from 300 M to 3.1 B parameters. Beyond astronomy, AION-1 provides a scalable blueprint for multimodal scientific foundation models that can seamlessly integrate noisy, instrument-specific observations. All code, tokenizers, pretrained weights, and a lightweight evaluation suite are released under an open-source license.
PDF252October 22, 2025