OceanPile: Крупномасштабный мультимодальный океанографический корпус для базовых моделей
OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models
April 25, 2026
Авторы: Yida Xue, Ningyu Zhang, Tingwei Wu, Zhe Ma, Daxiong Ji, Zhao Wang, Guozhou Zheng, Huajun Chen
cs.AI
Аннотация
Обширный и малоизученный океан играет ключевую роль в регулировании глобального климата и поддержании морского биоразнообразия, однако искусственный интеллект до сих пор оказывал ограниченное влияние в этой области из-за фундаментальной проблемы данных. В частности, океанические данные сильно фрагментированы между различными источниками и по своей природе обладают многомодальными, зашумленными и слабо размеченными характеристиками, испытывая недостаток унифицированных схем и семантического выравнивания. Хотя многомодальные большие языковые модели (MLLM) достигли значительных успехов в общих областях, их применение в океанологии остается серьезно ограниченным из-за отсутствия крупномасштабных, хорошо согласованных многомодальных наборов данных, адаптированных для морских сред. Для преодоления этого разрыва мы представляем OceanPile — крупномасштабный многомодальный корпус, разработанный для базовых моделей в океанологии. Он включает три ключевых компонента: OceanCorpus, унифицированную коллекцию, интегрирующую гидроакустические данные, подводные изображения, научные визуализации и тексты из различных авторитетных источников; OceanInstruction, высококачественный набор инструкций, синтезированный с помощью нового конвейера, управляемого иерархическим графом знаний океанических понятий; и OceanBenchmark, вручную отобранный эталонный набор для строгой оценки. Мы устанавливаем многоэтапный процесс контроля качества для обеспечения научной достоверности и согласованности между модальностями. Экспериментальная проверка демонстрирует значительное улучшение производительности моделей, обученных на наших данных. Все наборы данных публично выпускаются для развития морского искусственного интеллекта и расширения возможностей предметно-ориентированных MLLM.
English
The vast and underexplored ocean plays a critical role in regulating global climate and supporting marine biodiversity, yet artificial intelligence has so far delivered limited impact in this domain due to a fundamental data bottleneck. Specifically, ocean data are highly fragmented across disparate sources and inherently exhibit multi-modal, high-noise, and weakly labeled characteristics, lacking unified schemas and semantic alignment. Although Multimodal Large Language Models (MLLMs) have achieved remarkable success in general domains, their application to ocean science remains severely constrained by the absence of large-scale, well-aligned multimodal datasets tailored to marine environments. To bridge this gap, we introduce OceanPile, a large-scale multimodal corpus designed for ocean foundation models. It comprises three key components: OceanCorpus, a unified collection integrating sonar data, underwater imagery, marine science visuals, and scientific text from diverse authoritative sources; OceanInstruction, a high-quality instruction dataset synthesized via a novel pipeline guided by a hierarchical Ocean Concept Knowledge Graph; and OceanBenchmark, a manually curated evaluation benchmark for rigorous assessment. We establish a multi-stage quality control process to ensure scientific validity and alignment across modalities. Experimental validation demonstrates significant performance improvements for models trained on our data. All datasets are publicly released to advance the field of marine artificial intelligence and empower domain-specific MLLMs.