AION-1:天文学のためのオムニモーダル基盤モデル
AION-1: Omnimodal Foundation Model for Astronomical Sciences
October 20, 2025
著者: Liam Parker, Francois Lanusse, Jeff Shen, Ollie Liu, Tom Hehir, Leopoldo Sarra, Lucas Meyer, Micah Bowles, Sebastian Wagner-Carena, Helen Qu, Siavash Golkar, Alberto Bietti, Hatim Bourfoune, Nathan Casserau, Pierre Cornette, Keiya Hirashima, Geraud Krawezik, Ruben Ohana, Nicholas Lourie, Michael McCabe, Rudy Morel, Payel Mukhopadhyay, Mariel Pettee, Bruno Regaldo-Saint Blancard, Kyunghyun Cho, Miles Cranmer, Shirley Ho
cs.AI
要旨
基盤モデルは様々な分野で有望な成果を示しているものの、天文学においては、その多様なデータモダリティを横断した統合的なモデリングのための枠組みがまだ確立されていません。本論文では、天文学向けの大規模マルチモーダル基盤モデルファミリーであるAION-1を提案します。AION-1は、異種の画像データ、分光データ、スカラーデータを統合するために、2段階のアーキテクチャを採用しています。具体的には、モダリティ固有のトークン化を行った後、トランスフォーマーベースのマスク付きモデリングを用いてクロスモーダルトークンシーケンスを処理します。このモデルは、Legacy Survey、Hyper Suprime-Cam (HSC)、Sloan Digital Sky Survey (SDSS)、Dark Energy Spectroscopic Instrument (DESI)、Gaiaという5つの大規模サーベイデータを用いて事前学習されています。これらは、恒星、銀河、クエーサーに関する2億以上の観測データを網羅しています。単一の凍結されたエンコーダを用いることで、AION-1は、銀河や恒星の特性推定、銀河の形態分類、類似性に基づく検索、銀河画像のセグメンテーション、スペクトル超解像といった幅広い下流タスクにおいて優れた結果を達成しています。我々は、300Mから3.1BパラメータまでのAION-1モデルのバリエーションを公開します。天文学を超えて、AION-1は、ノイズの多い機器固有の観測データをシームレスに統合可能な、スケーラブルなマルチモーダル科学基盤モデルの青写真を提供します。すべてのコード、トークナイザー、事前学習済みの重み、軽量な評価スイートは、オープンソースライセンスの下で公開されています。
English
While foundation models have shown promise across a variety of fields,
astronomy still lacks a unified framework for joint modeling across its highly
diverse data modalities. In this paper, we present AION-1, a family of
large-scale multimodal foundation models for astronomy. AION-1 integrates
heterogeneous imaging, spectroscopic, and scalar data using a two-stage
architecture: modality-specific tokenization followed by transformer-based
masked modeling of cross-modal token sequences. The model is pretrained on five
large-scale surveys: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky
Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI), and Gaia. These
span more than 200 million observations of stars, galaxies, and quasars. With a
single frozen encoder, AION-1 achieves strong results on a broad suite of
downstream tasks, including galaxy and stellar property estimation, galaxy
morphology classification, similarity-based retrieval, galaxy image
segmentation, and spectral super-resolution. We release AION-1 model variants
ranging from 300 M to 3.1 B parameters. Beyond astronomy, AION-1 provides a
scalable blueprint for multimodal scientific foundation models that can
seamlessly integrate noisy, instrument-specific observations. All code,
tokenizers, pretrained weights, and a lightweight evaluation suite are released
under an open-source license.