OceanPile: Un Corpus Oceánico Multimodal a Gran Escala para Modelos Fundacionales

Resumen

El vasto y poco explorado océano desempeña un papel crítico en la regulación del clima global y el mantenimiento de la biodiversidad marina; sin embargo, la inteligencia artificial ha tenido hasta ahora un impacto limitado en este ámbito debido a un cuello de botella fundamental: los datos. Específicamente, los datos oceanográficos están altamente fragmentados en fuentes dispares y presentan inherentemente características multimodales, de alto ruido y con etiquetado débil, careciendo de esquemas unificados y alineación semántica. Aunque los Modelos de Lenguaje Grande Multimodales (MLLMs) han logrado un éxito notable en dominios generales, su aplicación a las ciencias oceánicas sigue severamente limitada por la ausencia de conjuntos de datos multimodales a gran escala y bien alineados, adaptados a los entornos marinos. Para salvar esta brecha, presentamos OceanPile, un corpus multimodal a gran escala diseñado para modelos fundacionales oceánicos. Este comprende tres componentes clave: OceanCorpus, una colección unificada que integra datos de sonar, imágenes submarinas, material visual de ciencias marinas y texto científico de diversas fuentes autorizadas; OceanInstruction, un conjunto de datos de instrucciones de alta calidad sintetizado mediante una novedosa metodología guiada por un Grafo de Conocimiento de Conceptos Oceánicos jerárquico; y OceanBenchmark, un punto de referencia de evaluación curado manualmente para una valoración rigurosa. Establecemos un proceso de control de calidad multi-etapa para garantizar la validez científica y la alineación entre modalidades. La validación experimental demuestra mejoras significativas en el rendimiento de los modelos entrenados con nuestros datos. Todos los conjuntos de datos se publican abiertamente para impulsar el campo de la inteligencia artificial marina y potenciar los MLLMs específicos del dominio.

English

The vast and underexplored ocean plays a critical role in regulating global climate and supporting marine biodiversity, yet artificial intelligence has so far delivered limited impact in this domain due to a fundamental data bottleneck. Specifically, ocean data are highly fragmented across disparate sources and inherently exhibit multi-modal, high-noise, and weakly labeled characteristics, lacking unified schemas and semantic alignment. Although Multimodal Large Language Models (MLLMs) have achieved remarkable success in general domains, their application to ocean science remains severely constrained by the absence of large-scale, well-aligned multimodal datasets tailored to marine environments. To bridge this gap, we introduce OceanPile, a large-scale multimodal corpus designed for ocean foundation models. It comprises three key components: OceanCorpus, a unified collection integrating sonar data, underwater imagery, marine science visuals, and scientific text from diverse authoritative sources; OceanInstruction, a high-quality instruction dataset synthesized via a novel pipeline guided by a hierarchical Ocean Concept Knowledge Graph; and OceanBenchmark, a manually curated evaluation benchmark for rigorous assessment. We establish a multi-stage quality control process to ensure scientific validity and alignment across modalities. Experimental validation demonstrates significant performance improvements for models trained on our data. All datasets are publicly released to advance the field of marine artificial intelligence and empower domain-specific MLLMs.

OceanPile: Un Corpus Oceánico Multimodal a Gran Escala para Modelos Fundacionales

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

Resumen

Support