PIN : Un jeu de données riche en connaissances pour des documents multimodaux appariés et entrelacés
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents
June 20, 2024
Auteurs: Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen
cs.AI
Résumé
Les récents progrès des modèles multimodaux de grande taille (LMMs) ont tiré parti de vastes ensembles de données multimodales pour améliorer leurs capacités dans des tâches complexes nécessitant des connaissances. Cependant, des défis persistants liés aux erreurs perceptuelles et de raisonnement limitent leur efficacité, en particulier dans l'interprétation de données visuelles complexes et la déduction de relations multimodales. Pour résoudre ces problèmes, nous introduisons un nouveau format de données, PIN (Paired and INterleaved multimodal documents), conçu pour améliorer significativement la profondeur et l'étendue de l'entraînement multimodal. Le format PIN repose sur trois principes fondamentaux : l'intensité des connaissances, l'évolutivité et le support de diverses modalités d'entraînement. Ce format innovant combine des fichiers markdown et des images détaillées pour enrichir les données d'entraînement avec une structure de connaissances dense et des stratégies d'entraînement polyvalentes. Nous présentons PIN-14M, un ensemble de données open-source comprenant 14 millions d'échantillons issus d'une variété de sources chinoises et anglaises, conçu pour inclure des contenus web et scientifiques complexes. Cet ensemble de données est méticuleusement construit pour garantir la qualité des données et l'intégrité éthique, visant à faciliter des stratégies d'entraînement avancées et à améliorer la robustesse des modèles face aux pièges courants de l'entraînement multimodal. Nos résultats initiaux, qui constituent la base de ce rapport technique, suggèrent un potentiel significatif du format PIN pour affiner les performances des LMMs, avec des plans pour des extensions futures et des évaluations détaillées de son impact sur les capacités des modèles.
English
Recent advancements in Large Multimodal Models (LMMs) have leveraged
extensive multimodal datasets to enhance capabilities in complex
knowledge-driven tasks. However, persistent challenges in perceptual and
reasoning errors limit their efficacy, particularly in interpreting intricate
visual data and deducing multimodal relationships. Addressing these issues, we
introduce a novel dataset format, PIN (Paired and INterleaved multimodal
documents), designed to significantly improve both the depth and breadth of
multimodal training. The PIN format is built on three foundational principles:
knowledge intensity, scalability, and support for diverse training modalities.
This innovative format combines markdown files and comprehensive images to
enrich training data with a dense knowledge structure and versatile training
strategies. We present PIN-14M, an open-source dataset comprising 14 million
samples derived from a diverse range of Chinese and English sources, tailored
to include complex web and scientific content. This dataset is constructed
meticulously to ensure data quality and ethical integrity, aiming to facilitate
advanced training strategies and improve model robustness against common
multimodal training pitfalls. Our initial results, forming the basis of this
technical report, suggest significant potential for the PIN format in refining
LMM performance, with plans for future expansions and detailed evaluations of
its impact on model capabilities.Summary
AI-Generated Summary