PIN: 페어링 및 인터리브된 멀티모달 문서를 위한 지식 집약적 데이터셋
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents
June 20, 2024
저자: Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen
cs.AI
초록
최근 대규모 멀티모달 모델(Large Multimodal Models, LMMs)의 발전은 방대한 멀티모달 데이터셋을 활용하여 복잡한 지식 기반 작업에서의 성능을 향상시켰습니다. 그러나 지각 및 추론 오류와 같은 지속적인 문제들은 특히 복잡한 시각 데이터 해석과 멀티모달 관계 추론에서 모델의 효율성을 제한하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 멀티모달 학습의 깊이와 폭을 크게 개선할 수 있는 새로운 데이터셋 형식인 PIN(Paired and INterleaved multimodal documents)을 소개합니다. PIN 형식은 지식 강도, 확장성, 다양한 학습 방식 지원이라는 세 가지 기본 원칙에 기반을 두고 있습니다. 이 혁신적인 형식은 마크다운 파일과 포괄적인 이미지를 결합하여 밀도 높은 지식 구조와 다양한 학습 전략을 통해 학습 데이터를 풍부하게 만듭니다. 우리는 중국어와 영어로 된 다양한 소스에서 추출한 1,400만 개의 샘플로 구성된 오픈소스 데이터셋인 PIN-14M을 제시합니다. 이 데이터셋은 복잡한 웹 및 과학 콘텐츠를 포함하도록 설계되었으며, 데이터 품질과 윤리적 무결성을 보장하기 위해 세심하게 구축되었습니다. 이를 통해 고급 학습 전략을 촉진하고 일반적인 멀티모달 학습의 함정에 대한 모델의 견고성을 개선하는 것을 목표로 합니다. 이 기술 보고서의 기초가 된 초기 결과는 PIN 형식이 LMM 성능을 개선하는 데 상당한 잠재력을 가지고 있음을 시사하며, 향후 확장 및 모델 기능에 미치는 영향에 대한 상세한 평가를 계획하고 있습니다.
English
Recent advancements in Large Multimodal Models (LMMs) have leveraged
extensive multimodal datasets to enhance capabilities in complex
knowledge-driven tasks. However, persistent challenges in perceptual and
reasoning errors limit their efficacy, particularly in interpreting intricate
visual data and deducing multimodal relationships. Addressing these issues, we
introduce a novel dataset format, PIN (Paired and INterleaved multimodal
documents), designed to significantly improve both the depth and breadth of
multimodal training. The PIN format is built on three foundational principles:
knowledge intensity, scalability, and support for diverse training modalities.
This innovative format combines markdown files and comprehensive images to
enrich training data with a dense knowledge structure and versatile training
strategies. We present PIN-14M, an open-source dataset comprising 14 million
samples derived from a diverse range of Chinese and English sources, tailored
to include complex web and scientific content. This dataset is constructed
meticulously to ensure data quality and ethical integrity, aiming to facilitate
advanced training strategies and improve model robustness against common
multimodal training pitfalls. Our initial results, forming the basis of this
technical report, suggest significant potential for the PIN format in refining
LMM performance, with plans for future expansions and detailed evaluations of
its impact on model capabilities.Summary
AI-Generated Summary