ChatPaper.aiChatPaper

Wasm: 構造化されたアラビア語インターリーブ型マルチモーダルコーパス構築のためのパイプライン

Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora

November 10, 2025
著者: Khalil Hennara, Ahmad Bastati, Muhammad Hreden, Mohamed Motasim Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI

要旨

大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の性能は、その事前学習データセットの質と規模に大きく依存する。最近の研究では、画像とテキストが交互に配置された自然な文書で学習した大規模マルチモーダルモデルが、画像テキストペアのみで学習したモデルよりも、様々なベンチマークで優れた性能を示すことが明らかになっている。これらは、意味的整合性、画像シーケンスの一貫性、テキストの一貫性を強化する先進的な事前学習モデルを活用している。しかし、アラビア語に関しては、文書構造を保持した高品質なマルチモーダルデータセットの不足が進展を妨げてきた。本論文では、Common Crawlデータセットを処理して、マークダウン出力を独自に提供する新たなアラビア語マルチモーダルデータセットを構築するためのパイプライン「Wasm」を提案する。既存のアラビア語コーパスがテキスト抽出のみに焦点を当てているのに対し、我々の手法は、テキストのみの事前学習とマルチモーダル事前学習の両方のシナリオに対応する柔軟性を維持しつつ、ウェブコンテンツの構造的完全性を保持する。既存の主要データセットで使用されているデータ処理パイプラインと我々のパイプラインとの包括的な比較分析を提供し、フィルタリング戦略の共通点を明らかにするとともに、我々の特定の設計選択を正当化する。将来の研究を支援するため、代表的なデータセットダンプとアラビア語向けマルチモーダル処理パイプラインを公開する。
English
The performance of large language models (LLMs) and large multimodal models (LMMs) depends heavily on the quality and scale of their pre-training datasets. Recent research shows that large multimodal models trained on natural documents where images and text are interleaved outperform those trained only on image-text pairs across a wide range of benchmarks, leveraging advanced pre- trained models to enforce semantic alignment, image-sequence consistency, and textual coherence. For Arabic, however, the lack of high-quality multimodal datasets that preserve document structure has limited progress. In this paper, we present our pipeline Wasm for processing the Common Crawl dataset to create a new Arabic multimodal dataset that uniquely provides markdown output. Unlike existing Arabic corpora that focus solely on text extraction, our approach preserves the structural integrity of web content while maintaining flexibility for both text-only and multimodal pre-training scenarios. We provide a comprehensive comparative analysis of our data processing pipeline against those used for major existing datasets, highlighting the convergences in filtering strategies and justifying our specific design choices. To support future research, we publicly release a representative dataset dump along with the multimodal processing pipeline for Arabic.
PDF312December 2, 2025