OceanPile : Un vaste corpus océanique multimodal pour les modèles fondamentaux

Résumé

L'océan, vaste et peu exploré, joue un rôle crucial dans la régulation du climat mondial et le soutien de la biodiversité marine. Pourtant, l'intelligence artificielle n'a jusqu'à présent eu qu'un impact limité dans ce domaine en raison d'un goulot d'étranglement fondamental lié aux données. Spécifiquement, les données océaniques sont très fragmentées entre des sources disparates et présentent intrinsèquement des caractéristiques multimodales, bruyantes et faiblement annotées, manquant de schémas unifiés et d'alignement sémantique. Bien que les Modèles de Langage Multimodaux (MLLM) aient obtenu des succès remarquables dans les domaines généraux, leur application aux sciences océaniques reste sévèrement limitée par l'absence de jeux de données multimodaux à grande scale, bien alignés et adaptés aux environnements marins. Pour combler cette lacune, nous présentons OceanPile, un corpus multimodal à grande échelle conçu pour les modèles fondamentaux en océanographie. Il se compose de trois éléments clés : OceanCorpus, une collection unifiée intégrant des données sonar, des images sous-marines, des visuels scientifiques marins et du texte scientifique provenant de diverses sources autorisées ; OceanInstruction, un jeu de données d'instructions de haute qualité synthétisé via une nouvelle méthode guidée par une Graphe de Connaissances Hiérarchique des Concepts Océaniques ; et OceanBenchmark, un benchmark d'évaluation minutieusement organisé manuellement pour une évaluation rigoureuse. Nous avons mis en place un processus de contrôle qualité multi-étapes pour garantir la validité scientifique et l'alignement entre les modalités. La validation expérimentale démontre des améliorations significatives des performances pour les modèles entraînés sur nos données. Tous les jeux de données sont rendus publics pour faire progresser le domaine de l'intelligence artificielle marine et renforcer les MLLM spécialisés.

English

The vast and underexplored ocean plays a critical role in regulating global climate and supporting marine biodiversity, yet artificial intelligence has so far delivered limited impact in this domain due to a fundamental data bottleneck. Specifically, ocean data are highly fragmented across disparate sources and inherently exhibit multi-modal, high-noise, and weakly labeled characteristics, lacking unified schemas and semantic alignment. Although Multimodal Large Language Models (MLLMs) have achieved remarkable success in general domains, their application to ocean science remains severely constrained by the absence of large-scale, well-aligned multimodal datasets tailored to marine environments. To bridge this gap, we introduce OceanPile, a large-scale multimodal corpus designed for ocean foundation models. It comprises three key components: OceanCorpus, a unified collection integrating sonar data, underwater imagery, marine science visuals, and scientific text from diverse authoritative sources; OceanInstruction, a high-quality instruction dataset synthesized via a novel pipeline guided by a hierarchical Ocean Concept Knowledge Graph; and OceanBenchmark, a manually curated evaluation benchmark for rigorous assessment. We establish a multi-stage quality control process to ensure scientific validity and alignment across modalities. Experimental validation demonstrates significant performance improvements for models trained on our data. All datasets are publicly released to advance the field of marine artificial intelligence and empower domain-specific MLLMs.

OceanPile : Un vaste corpus océanique multimodal pour les modèles fondamentaux

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

Résumé

Support