Wasm: una pipeline per la costruzione di corpora multimodali strutturati in arabo con contenuti intervallati
Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora
November 10, 2025
Autori: Khalil Hennara, Ahmad Bastati, Muhammad Hreden, Mohamed Motasim Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI
Abstract
Le prestazioni dei grandi modelli linguistici (LLM) e dei grandi modelli multimodali (LMM) dipendono fortemente dalla qualità e dalla scala dei loro dataset di pre-addestramento. Ricerche recenti dimostrano che i grandi modelli multimodali addestrati su documenti naturali in cui immagini e testo sono intercalati superano quelli addestrati esclusivamente su coppie immagine-testo in un'ampia gamma di benchmark, sfruttando modelli pre-addestrati avanzati per rafforzare l'allineamento semantico, la coerenza sequenza-immagine e la coerenza testuale. Per l'arabo, tuttavia, la carenza di dataset multimodali di alta qualità che preservino la struttura del documento ha limitato i progressi. In questo articolo, presentiamo la nostra pipeline Wasm per elaborare il dataset Common Crawl al fine di creare un nuovo dataset multimodale per l'arabo che fornisce in modo univoco un output in markdown. A differenza dei corpora arabi esistenti che si concentrano esclusivamente sull'estrazione del testo, il nostro approccio preserva l'integrità strutturale dei contenuti web mantenendo al contempo flessibilità per scenari di pre-addestramento sia solo testuali che multimodali. Forniamo un'analisi comparativa completa della nostra pipeline di elaborazione dei dati rispetto a quelle utilizzate per i principali dataset esistenti, evidenziando le convergenze nelle strategie di filtraggio e giustificando le nostre specifiche scelte progettuali. Per supportare la ricerca futura, rendiamo pubblicamente disponibile un dump rappresentativo del dataset insieme alla pipeline di elaborazione multimodale per l'arabo.
English
The performance of large language models (LLMs) and large multimodal models
(LMMs) depends heavily on the quality and scale of their pre-training datasets.
Recent research shows that large multimodal models trained on natural documents
where images and text are interleaved outperform those trained only on
image-text pairs across a wide range of benchmarks, leveraging advanced pre-
trained models to enforce semantic alignment, image-sequence consistency, and
textual coherence. For Arabic, however, the lack of high-quality multimodal
datasets that preserve document structure has limited progress. In this paper,
we present our pipeline Wasm for processing the Common Crawl dataset to create
a new Arabic multimodal dataset that uniquely provides markdown output. Unlike
existing Arabic corpora that focus solely on text extraction, our approach
preserves the structural integrity of web content while maintaining flexibility
for both text-only and multimodal pre-training scenarios. We provide a
comprehensive comparative analysis of our data processing pipeline against
those used for major existing datasets, highlighting the convergences in
filtering strategies and justifying our specific design choices. To support
future research, we publicly release a representative dataset dump along with
the multimodal processing pipeline for Arabic.