ChatPaper.aiChatPaper

AION-1: Modello Fondamentale Omnimodale per le Scienze Astronomiche

AION-1: Omnimodal Foundation Model for Astronomical Sciences

October 20, 2025
Autori: Liam Parker, Francois Lanusse, Jeff Shen, Ollie Liu, Tom Hehir, Leopoldo Sarra, Lucas Meyer, Micah Bowles, Sebastian Wagner-Carena, Helen Qu, Siavash Golkar, Alberto Bietti, Hatim Bourfoune, Nathan Casserau, Pierre Cornette, Keiya Hirashima, Geraud Krawezik, Ruben Ohana, Nicholas Lourie, Michael McCabe, Rudy Morel, Payel Mukhopadhyay, Mariel Pettee, Bruno Regaldo-Saint Blancard, Kyunghyun Cho, Miles Cranmer, Shirley Ho
cs.AI

Abstract

Sebbene i modelli di base abbiano dimostrato potenziale in una varietà di campi, l'astronomia manca ancora di un framework unificato per la modellazione congiunta attraverso le sue modalità di dati altamente diversificate. In questo articolo, presentiamo AION-1, una famiglia di modelli di base multimodali su larga scala per l'astronomia. AION-1 integra dati eterogenei di imaging, spettroscopici e scalari utilizzando un'architettura a due stadi: tokenizzazione specifica per modalità seguita da modellazione mascherata basata su transformer di sequenze di token cross-modali. Il modello è pre-addestrato su cinque survey su larga scala: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) e Gaia. Questi coprono oltre 200 milioni di osservazioni di stelle, galassie e quasar. Con un singolo encoder congelato, AION-1 ottiene risultati solidi su un'ampia gamma di task downstream, tra cui la stima delle proprietà delle galassie e delle stelle, la classificazione della morfologia delle galassie, il recupero basato sulla similarità, la segmentazione delle immagini delle galassie e la super-risoluzione spettrale. Rilasciamo varianti del modello AION-1 che vanno da 300 M a 3,1 B di parametri. Oltre all'astronomia, AION-1 fornisce uno schema scalabile per modelli di base scientifici multimodali che possono integrare in modo fluido osservazioni rumorose e specifiche per strumento. Tutto il codice, i tokenizer, i pesi pre-addestrati e una suite di valutazione leggera sono rilasciati con una licenza open-source.
English
While foundation models have shown promise across a variety of fields, astronomy still lacks a unified framework for joint modeling across its highly diverse data modalities. In this paper, we present AION-1, a family of large-scale multimodal foundation models for astronomy. AION-1 integrates heterogeneous imaging, spectroscopic, and scalar data using a two-stage architecture: modality-specific tokenization followed by transformer-based masked modeling of cross-modal token sequences. The model is pretrained on five large-scale surveys: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI), and Gaia. These span more than 200 million observations of stars, galaxies, and quasars. With a single frozen encoder, AION-1 achieves strong results on a broad suite of downstream tasks, including galaxy and stellar property estimation, galaxy morphology classification, similarity-based retrieval, galaxy image segmentation, and spectral super-resolution. We release AION-1 model variants ranging from 300 M to 3.1 B parameters. Beyond astronomy, AION-1 provides a scalable blueprint for multimodal scientific foundation models that can seamlessly integrate noisy, instrument-specific observations. All code, tokenizers, pretrained weights, and a lightweight evaluation suite are released under an open-source license.
PDF252October 22, 2025