ChatPaper.aiChatPaper

AION-1: Modelo Fundacional Omnimodal para las Ciencias Astronómicas

AION-1: Omnimodal Foundation Model for Astronomical Sciences

October 20, 2025
Autores: Liam Parker, Francois Lanusse, Jeff Shen, Ollie Liu, Tom Hehir, Leopoldo Sarra, Lucas Meyer, Micah Bowles, Sebastian Wagner-Carena, Helen Qu, Siavash Golkar, Alberto Bietti, Hatim Bourfoune, Nathan Casserau, Pierre Cornette, Keiya Hirashima, Geraud Krawezik, Ruben Ohana, Nicholas Lourie, Michael McCabe, Rudy Morel, Payel Mukhopadhyay, Mariel Pettee, Bruno Regaldo-Saint Blancard, Kyunghyun Cho, Miles Cranmer, Shirley Ho
cs.AI

Resumen

Si bien los modelos fundacionales han mostrado potencial en diversos campos, la astronomía aún carece de un marco unificado para el modelado conjunto de sus altamente diversas modalidades de datos. En este artículo, presentamos AION-1, una familia de modelos fundacionales multimodales a gran escala para astronomía. AION-1 integra datos heterogéneos de imágenes, espectroscopía y escalares utilizando una arquitectura de dos etapas: tokenización específica por modalidad seguida de modelado enmascarado basado en transformadores de secuencias de tokens multimodales. El modelo se preentrena con cinco estudios a gran escala: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) y Gaia. Estos abarcan más de 200 millones de observaciones de estrellas, galaxias y cuásares. Con un único codificador congelado, AION-1 logra resultados sólidos en una amplia gama de tareas posteriores, incluyendo estimación de propiedades de galaxias y estrellas, clasificación de morfología galáctica, recuperación basada en similitud, segmentación de imágenes de galaxias y superresolución espectral. Publicamos variantes del modelo AION-1 que van desde 300 M hasta 3.1 B de parámetros. Más allá de la astronomía, AION-1 proporciona un esquema escalable para modelos fundacionales científicos multimodales que pueden integrar sin problemas observaciones ruidosas y específicas de instrumentos. Todo el código, tokenizadores, pesos preentrenados y un conjunto ligero de evaluación se publican bajo una licencia de código abierto.
English
While foundation models have shown promise across a variety of fields, astronomy still lacks a unified framework for joint modeling across its highly diverse data modalities. In this paper, we present AION-1, a family of large-scale multimodal foundation models for astronomy. AION-1 integrates heterogeneous imaging, spectroscopic, and scalar data using a two-stage architecture: modality-specific tokenization followed by transformer-based masked modeling of cross-modal token sequences. The model is pretrained on five large-scale surveys: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI), and Gaia. These span more than 200 million observations of stars, galaxies, and quasars. With a single frozen encoder, AION-1 achieves strong results on a broad suite of downstream tasks, including galaxy and stellar property estimation, galaxy morphology classification, similarity-based retrieval, galaxy image segmentation, and spectral super-resolution. We release AION-1 model variants ranging from 300 M to 3.1 B parameters. Beyond astronomy, AION-1 provides a scalable blueprint for multimodal scientific foundation models that can seamlessly integrate noisy, instrument-specific observations. All code, tokenizers, pretrained weights, and a lightweight evaluation suite are released under an open-source license.
PDF252October 22, 2025