AION-1: 천문학 과학을 위한 전(全)모달리티 기반 모델
AION-1: Omnimodal Foundation Model for Astronomical Sciences
October 20, 2025
저자: Liam Parker, Francois Lanusse, Jeff Shen, Ollie Liu, Tom Hehir, Leopoldo Sarra, Lucas Meyer, Micah Bowles, Sebastian Wagner-Carena, Helen Qu, Siavash Golkar, Alberto Bietti, Hatim Bourfoune, Nathan Casserau, Pierre Cornette, Keiya Hirashima, Geraud Krawezik, Ruben Ohana, Nicholas Lourie, Michael McCabe, Rudy Morel, Payel Mukhopadhyay, Mariel Pettee, Bruno Regaldo-Saint Blancard, Kyunghyun Cho, Miles Cranmer, Shirley Ho
cs.AI
초록
파운데이션 모델은 다양한 분야에서 유망한 성과를 보여왔지만, 천문학은 여전히 매우 다양한 데이터 양식 간의 통합 모델링을 위한 통합 프레임워크가 부족한 상황이다. 본 논문에서는 천문학을 위한 대규모 멀티모달 파운데이션 모델인 AION-1 시리즈를 소개한다. AION-1은 이질적인 이미징, 분광학, 스칼라 데이터를 두 단계의 아키텍처로 통합한다: 모달리티별 토큰화와 이어지는 트랜스포머 기반의 크로스모달 토큰 시퀀스 마스크 모델링이다. 이 모델은 Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI), Gaia 등 5개의 대규모 서베이 데이터를 사전 학습한다. 이 데이터는 별, 은하, 퀘이사에 대한 2억 건 이상의 관측을 포함한다. 단일 고정 인코더를 사용한 AION-1은 은하 및 항성 속성 추정, 은하 형태 분류, 유사성 기반 검색, 은하 이미지 분할, 스펙트럼 초해상도 등 다양한 다운스트림 작업에서 강력한 성능을 보인다. 우리는 3억 개에서 31억 개의 파라미터를 가진 AION-1 모델 변종을 공개한다. 천문학을 넘어, AION-1은 노이즈가 많고 장치 특정적인 관측 데이터를 원활하게 통합할 수 있는 확장 가능한 멀티모달 과학 파운데이션 모델의 청사진을 제공한다. 모든 코드, 토크나이저, 사전 학습된 가중치, 경량 평가 도구는 오픈소스 라이선스로 공개된다.
English
While foundation models have shown promise across a variety of fields,
astronomy still lacks a unified framework for joint modeling across its highly
diverse data modalities. In this paper, we present AION-1, a family of
large-scale multimodal foundation models for astronomy. AION-1 integrates
heterogeneous imaging, spectroscopic, and scalar data using a two-stage
architecture: modality-specific tokenization followed by transformer-based
masked modeling of cross-modal token sequences. The model is pretrained on five
large-scale surveys: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky
Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI), and Gaia. These
span more than 200 million observations of stars, galaxies, and quasars. With a
single frozen encoder, AION-1 achieves strong results on a broad suite of
downstream tasks, including galaxy and stellar property estimation, galaxy
morphology classification, similarity-based retrieval, galaxy image
segmentation, and spectral super-resolution. We release AION-1 model variants
ranging from 300 M to 3.1 B parameters. Beyond astronomy, AION-1 provides a
scalable blueprint for multimodal scientific foundation models that can
seamlessly integrate noisy, instrument-specific observations. All code,
tokenizers, pretrained weights, and a lightweight evaluation suite are released
under an open-source license.