OceanPile: 파운데이션 모델을 위한 대규모 멀티모달 해양 코퍼스
OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models
April 25, 2026
저자: Yida Xue, Ningyu Zhang, Tingwei Wu, Zhe Ma, Daxiong Ji, Zhao Wang, Guozhou Zheng, Huajun Chen
cs.AI
초록
방대하면서도 미개척 상태인 해양은 지구 기후를 규율하고 해양 생물다양성을 지탱하는 데 중요한 역할을 하지만, 인공지능은 근본적인 데이터 병목 현상으로 인해 이 분야에서 지금까지 제한적인 영향만을 미쳐왔습니다. 구체적으로, 해양 데이터는 다양한 출처에 걸쳐 심각하게 파편화되어 있으며, 본질적으로 다중 모드, 고잡음, 약한 라벨링 특성을 보이며 통합 스키마와 의미론적 정합성이 부족합니다. 다중 모드 대규모 언어 모델(MLLM)이 일반 영역에서 놀라운 성공을 거두었음에도 불구하고, 해양 환경에 맞춰진 대규모의 잘 정렬된 다중 모드 데이터셋의 부재로 인해 해양 과학에의 적용은 여전히 심각하게 제한받고 있습니다. 이러한 격차를 해소하기 위해 우리는 해양 기초 모델을 위해 설계된 대규모 다중 모드 코퍼스인 OceanPile을 소개합니다. 이는 세 가지 핵심 구성 요소로 이루어져 있습니다: 다양한 권위 있는 출처의 소나 데이터, 수중 이미지, 해양 과학 시각 자료 및 과학 텍스트를 통합한 통합 컬렉션인 OceanCorpus; 계층적 해양 개념 지식 그래프에 의해 안내되는 새로운 파이프라인을 통해 합성된 고품질 명령어 데이터셋인 OceanInstruction; 그리고 엄격한 평가를 위한 수동으로 선별된 평가 벤치마크인 OceanBenchmark입니다. 우리는 다중 단계 품질 관리 프로세스를 구축하여 과학적 타당성과 모드 간 정합성을 보장합니다. 실험적 검증은 우리 데이터로 훈련된 모델의 성능이 현저히 향상됨을 보여줍니다. 모든 데이터셋은 해양 인공지능 분야의 발전과 도메인 특화 MLLM의 역량 강화를 위해 공개됩니다.
English
The vast and underexplored ocean plays a critical role in regulating global climate and supporting marine biodiversity, yet artificial intelligence has so far delivered limited impact in this domain due to a fundamental data bottleneck. Specifically, ocean data are highly fragmented across disparate sources and inherently exhibit multi-modal, high-noise, and weakly labeled characteristics, lacking unified schemas and semantic alignment. Although Multimodal Large Language Models (MLLMs) have achieved remarkable success in general domains, their application to ocean science remains severely constrained by the absence of large-scale, well-aligned multimodal datasets tailored to marine environments. To bridge this gap, we introduce OceanPile, a large-scale multimodal corpus designed for ocean foundation models. It comprises three key components: OceanCorpus, a unified collection integrating sonar data, underwater imagery, marine science visuals, and scientific text from diverse authoritative sources; OceanInstruction, a high-quality instruction dataset synthesized via a novel pipeline guided by a hierarchical Ocean Concept Knowledge Graph; and OceanBenchmark, a manually curated evaluation benchmark for rigorous assessment. We establish a multi-stage quality control process to ensure scientific validity and alignment across modalities. Experimental validation demonstrates significant performance improvements for models trained on our data. All datasets are publicly released to advance the field of marine artificial intelligence and empower domain-specific MLLMs.