Wasm: una pipeline per la costruzione di corpora multimodali strutturati in arabo con contenuti intervallati

Abstract

Le prestazioni dei grandi modelli linguistici (LLM) e dei grandi modelli multimodali (LMM) dipendono fortemente dalla qualità e dalla scala dei loro dataset di pre-addestramento. Ricerche recenti dimostrano che i grandi modelli multimodali addestrati su documenti naturali in cui immagini e testo sono intercalati superano quelli addestrati esclusivamente su coppie immagine-testo in un'ampia gamma di benchmark, sfruttando modelli pre-addestrati avanzati per rafforzare l'allineamento semantico, la coerenza sequenza-immagine e la coerenza testuale. Per l'arabo, tuttavia, la carenza di dataset multimodali di alta qualità che preservino la struttura del documento ha limitato i progressi. In questo articolo, presentiamo la nostra pipeline Wasm per elaborare il dataset Common Crawl al fine di creare un nuovo dataset multimodale per l'arabo che fornisce in modo univoco un output in markdown. A differenza dei corpora arabi esistenti che si concentrano esclusivamente sull'estrazione del testo, il nostro approccio preserva l'integrità strutturale dei contenuti web mantenendo al contempo flessibilità per scenari di pre-addestramento sia solo testuali che multimodali. Forniamo un'analisi comparativa completa della nostra pipeline di elaborazione dei dati rispetto a quelle utilizzate per i principali dataset esistenti, evidenziando le convergenze nelle strategie di filtraggio e giustificando le nostre specifiche scelte progettuali. Per supportare la ricerca futura, rendiamo pubblicamente disponibile un dump rappresentativo del dataset insieme alla pipeline di elaborazione multimodale per l'arabo.

English

The performance of large language models (LLMs) and large multimodal models (LMMs) depends heavily on the quality and scale of their pre-training datasets. Recent research shows that large multimodal models trained on natural documents where images and text are interleaved outperform those trained only on image-text pairs across a wide range of benchmarks, leveraging advanced pre- trained models to enforce semantic alignment, image-sequence consistency, and textual coherence. For Arabic, however, the lack of high-quality multimodal datasets that preserve document structure has limited progress. In this paper, we present our pipeline Wasm for processing the Common Crawl dataset to create a new Arabic multimodal dataset that uniquely provides markdown output. Unlike existing Arabic corpora that focus solely on text extraction, our approach preserves the structural integrity of web content while maintaining flexibility for both text-only and multimodal pre-training scenarios. We provide a comprehensive comparative analysis of our data processing pipeline against those used for major existing datasets, highlighting the convergences in filtering strategies and justifying our specific design choices. To support future research, we publicly release a representative dataset dump along with the multimodal processing pipeline for Arabic.

Wasm: una pipeline per la costruzione di corpora multimodali strutturati in arabo con contenuti intervallati

Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora

Abstract

Support