OceanPile: Ein groß angelegter multimodaler Ozean-Korpus für Fundamentalmodelle

Zusammenfassung

Der weite und wenig erforschte Ozean spielt eine entscheidende Rolle bei der Regulierung des globalen Klimas und der Unterstützung der marinen Biodiversität. Dennoch hat die künstliche Intelligenz in diesem Bereich bisher nur begrenzte Wirkung gezeigt, was auf einen grundlegenden Datenengpass zurückzuführen ist. Konkret sind Ozeandaten stark fragmentiert über verschiedene Quellen verteilt und weisen inhärent multimodale, verrauschte und schwach annotierte Eigenschaften auf, wobei es an einheitlichen Schemata und semantischer Abstimmung mangelt. Obwohl multimodale große Sprachmodelle (MLLMs) in allgemeinen Domänen bemerkenswerte Erfolge erzielt haben, bleibt ihre Anwendung in der Meereswissenschaft aufgrund des Fehlens groß angelegter, gut abgestimmter multimodaler Datensätze, die auf marine Umgebungen zugeschnitten sind, stark eingeschränkt. Um diese Lücke zu schließen, stellen wir OceanPile vor, einen groß angelegten multimodalen Korpus für Ozean-Foundation-Modelle. Er umfasst drei Schlüsselkomponenten: OceanCorpus, eine vereinheitlichte Sammlung, die Sonardaten, Unterwasseraufnahmen, meereswissenschaftliche Visualisierungen und wissenschaftliche Texte aus verschiedenen autoritativen Quellen integriert; OceanInstruction, einen hochwertigen Instruktionsdatensatz, der über eine neuartige, durch einen hierarchischen Ozean-Konzeptwissensgraphen gesteuerte Pipeline synthetisiert wurde; und OceanBenchmark, einen manuell kuratierten Evaluierungsmaßstab für rigorose Bewertungen. Wir haben einen mehrstufigen Qualitätssicherungsprozess etabliert, um die wissenschaftliche Validität und Abstimmung über die Modalitäten hinweg zu gewährleisten. Experimentelle Validierungen zeigen signifikante Leistungsverbesserungen von Modellen, die mit unseren Daten trainiert wurden. Alle Datensätze werden öffentlich zugänglich gemacht, um das Feld der marinen künstlichen Intelligenz voranzubringen und domänenspezifische MLLMs zu befähigen.

English

The vast and underexplored ocean plays a critical role in regulating global climate and supporting marine biodiversity, yet artificial intelligence has so far delivered limited impact in this domain due to a fundamental data bottleneck. Specifically, ocean data are highly fragmented across disparate sources and inherently exhibit multi-modal, high-noise, and weakly labeled characteristics, lacking unified schemas and semantic alignment. Although Multimodal Large Language Models (MLLMs) have achieved remarkable success in general domains, their application to ocean science remains severely constrained by the absence of large-scale, well-aligned multimodal datasets tailored to marine environments. To bridge this gap, we introduce OceanPile, a large-scale multimodal corpus designed for ocean foundation models. It comprises three key components: OceanCorpus, a unified collection integrating sonar data, underwater imagery, marine science visuals, and scientific text from diverse authoritative sources; OceanInstruction, a high-quality instruction dataset synthesized via a novel pipeline guided by a hierarchical Ocean Concept Knowledge Graph; and OceanBenchmark, a manually curated evaluation benchmark for rigorous assessment. We establish a multi-stage quality control process to ensure scientific validity and alignment across modalities. Experimental validation demonstrates significant performance improvements for models trained on our data. All datasets are publicly released to advance the field of marine artificial intelligence and empower domain-specific MLLMs.

OceanPile: Ein groß angelegter multimodaler Ozean-Korpus für Fundamentalmodelle

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

Zusammenfassung

Support