PIN: ペアリングおよびインターリーブされたマルチモーダル文書のための知識集約型データセット
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents
June 20, 2024
著者: Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen
cs.AI
要旨
大規模マルチモーダルモデル(LMM)の最近の進展では、複雑な知識駆動型タスクの能力を向上させるために、広範なマルチモーダルデータセットが活用されてきた。しかし、知覚的および推論的エラーの持続的な課題が、特に複雑な視覚データの解釈やマルチモーダル関係の推論において、その有効性を制限している。これらの問題に対処するため、我々は新しいデータセット形式であるPIN(Paired and INterleaved multimodal documents)を導入し、マルチモーダルトレーニングの深さと幅を大幅に改善することを目指す。PIN形式は、知識密度、スケーラビリティ、多様なトレーニングモダリティのサポートという3つの基本原則に基づいて構築されている。この革新的な形式は、マークダウンファイルと包括的な画像を組み合わせ、トレーニングデータに濃密な知識構造と多様なトレーニング戦略を提供する。我々は、中国語と英語の多様なソースから得られた1400万サンプルを含むオープンソースデータセットPIN-14Mを提示し、複雑なウェブおよび科学コンテンツを包含するように設計されている。このデータセットは、データ品質と倫理的整合性を確保するために慎重に構築されており、高度なトレーニング戦略を促進し、一般的なマルチモーダルトレーニングの落とし穴に対するモデルの堅牢性を向上させることを目指している。本技術レポートの基礎となる初期結果は、PIN形式がLMMの性能を洗練する上で大きな可能性を示唆しており、今後の拡張とモデル能力への影響の詳細な評価が計画されている。
English
Recent advancements in Large Multimodal Models (LMMs) have leveraged
extensive multimodal datasets to enhance capabilities in complex
knowledge-driven tasks. However, persistent challenges in perceptual and
reasoning errors limit their efficacy, particularly in interpreting intricate
visual data and deducing multimodal relationships. Addressing these issues, we
introduce a novel dataset format, PIN (Paired and INterleaved multimodal
documents), designed to significantly improve both the depth and breadth of
multimodal training. The PIN format is built on three foundational principles:
knowledge intensity, scalability, and support for diverse training modalities.
This innovative format combines markdown files and comprehensive images to
enrich training data with a dense knowledge structure and versatile training
strategies. We present PIN-14M, an open-source dataset comprising 14 million
samples derived from a diverse range of Chinese and English sources, tailored
to include complex web and scientific content. This dataset is constructed
meticulously to ensure data quality and ethical integrity, aiming to facilitate
advanced training strategies and improve model robustness against common
multimodal training pitfalls. Our initial results, forming the basis of this
technical report, suggest significant potential for the PIN format in refining
LMM performance, with plans for future expansions and detailed evaluations of
its impact on model capabilities.Summary
AI-Generated Summary