OceanPile: Een grootschalig multimodaal oceaan-corpus voor fundamentele modellen

Samenvatting

De uitgestrekte en onderbelichte oceaan speelt een cruciale rol in de regulering van het wereldwijde klimaat en het ondersteunen van mariene biodiversiteit, maar kunstmatige intelligentie heeft tot dusver een beperkte impact geleverd in dit domein vanwege een fundamenteel dataknelpunt. Concreet zijn oceaangegevens sterk gefragmenteerd over uiteenlopende bronnen en vertonen ze inherent multi-modale, ruisgevoelige en zwak gelabelde kenmerken, waarbij uniforme schema's en semantische afstemming ontbreken. Hoewel Multimodale Large Language Models (MLLM's) opmerkelijke successen hebben geboekt in algemene domeinen, blijft hun toepassing in de oceanografie ernstig beperkt door het ontbreken van grootschalige, goed afgestemde multimodale datasets die zijn toegesneden op mariene omgevingen. Om deze kloof te overbruggen, introduceren wij OceanPile, een grootschalig multimodaal corpus voor oceanische foundation-modellen. Het omvat drie kerncomponenten: OceanCorpus, een uniforme verzameling van sonardata, onderwaterbeelden, marien-wetenschappelijke visuals en wetenschappelijke tekst uit diverse gezaghebbende bronnen; OceanInstruction, een hoogwaardige instructiedataset gesynthetiseerd via een nieuwe pijplijn geleid door een hiërarchische Ocean Concept Knowledge Graph; en OceanBenchmark, een handmatig samengestelde evaluatiestandaard voor rigoureuze beoordeling. Wij hebben een meerfasen kwaliteitscontroleproces opgezet om wetenschappelijke validiteit en afstemming tussen modaliteiten te waarborgen. Experimentele validatie toont significante prestatieverbeteringen aan voor modellen die op onze data zijn getraind. Alle datasets worden openbaar vrijgegeven om het vakgebied van mariene kunstmatige intelligentie vooruit te helpen en domeinspecifieke MLLM's te versterken.

English

The vast and underexplored ocean plays a critical role in regulating global climate and supporting marine biodiversity, yet artificial intelligence has so far delivered limited impact in this domain due to a fundamental data bottleneck. Specifically, ocean data are highly fragmented across disparate sources and inherently exhibit multi-modal, high-noise, and weakly labeled characteristics, lacking unified schemas and semantic alignment. Although Multimodal Large Language Models (MLLMs) have achieved remarkable success in general domains, their application to ocean science remains severely constrained by the absence of large-scale, well-aligned multimodal datasets tailored to marine environments. To bridge this gap, we introduce OceanPile, a large-scale multimodal corpus designed for ocean foundation models. It comprises three key components: OceanCorpus, a unified collection integrating sonar data, underwater imagery, marine science visuals, and scientific text from diverse authoritative sources; OceanInstruction, a high-quality instruction dataset synthesized via a novel pipeline guided by a hierarchical Ocean Concept Knowledge Graph; and OceanBenchmark, a manually curated evaluation benchmark for rigorous assessment. We establish a multi-stage quality control process to ensure scientific validity and alignment across modalities. Experimental validation demonstrates significant performance improvements for models trained on our data. All datasets are publicly released to advance the field of marine artificial intelligence and empower domain-specific MLLMs.

OceanPile: Een grootschalig multimodaal oceaan-corpus voor fundamentele modellen

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

Samenvatting

Support