ChatPaper.aiChatPaper

PIN: Ein wissensintensiver Datensatz für gepaarte und verschachtelte multimodale Dokumente.

PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

June 20, 2024
Autoren: Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen
cs.AI

Zusammenfassung

In den letzten Fortschritten bei Large Multimodal Models (LMMs) wurden umfangreiche multimodale Datensätze genutzt, um die Fähigkeiten bei komplexen wissensgesteuerten Aufgaben zu verbessern. Dennoch begrenzen anhaltende Herausforderungen in der Wahrnehmung und im Schlussfolgern ihre Wirksamkeit, insbesondere bei der Interpretation komplexer visueller Daten und der Ableitung multimodaler Beziehungen. Zur Bewältigung dieser Probleme stellen wir ein neuartiges Datensatzformat vor, PIN (Paired and INterleaved multimodal documents), das konzipiert ist, um sowohl die Tiefe als auch die Breite des multimodalen Trainings signifikant zu verbessern. Das PIN-Format basiert auf drei grundlegenden Prinzipien: Wissensintensität, Skalierbarkeit und Unterstützung für verschiedene Trainingsmodalitäten. Dieses innovative Format kombiniert Markdown-Dateien und umfassende Bilder, um Trainingsdaten mit einer dichten Wissensstruktur und vielseitigen Trainingsstrategien anzureichern. Wir präsentieren PIN-14M, einen Open-Source-Datensatz bestehend aus 14 Millionen Beispielen, die aus einer vielfältigen Palette chinesischer und englischer Quellen stammen und komplexe Web- und wissenschaftliche Inhalte umfassen. Dieser Datensatz wurde sorgfältig erstellt, um die Datenqualität und ethische Integrität sicherzustellen, mit dem Ziel, fortgeschrittene Trainingsstrategien zu erleichtern und die Modellrobustheit gegenüber gängigen multimodalen Trainingsfallen zu verbessern. Unsere ersten Ergebnisse, die die Grundlage dieses technischen Berichts bilden, deuten auf ein signifikantes Potenzial des PIN-Formats hin, die Leistung von LMMs zu verbessern, mit Plänen für zukünftige Erweiterungen und detaillierte Bewertungen ihres Einflusses auf die Modellfähigkeiten.
English
Recent advancements in Large Multimodal Models (LMMs) have leveraged extensive multimodal datasets to enhance capabilities in complex knowledge-driven tasks. However, persistent challenges in perceptual and reasoning errors limit their efficacy, particularly in interpreting intricate visual data and deducing multimodal relationships. Addressing these issues, we introduce a novel dataset format, PIN (Paired and INterleaved multimodal documents), designed to significantly improve both the depth and breadth of multimodal training. The PIN format is built on three foundational principles: knowledge intensity, scalability, and support for diverse training modalities. This innovative format combines markdown files and comprehensive images to enrich training data with a dense knowledge structure and versatile training strategies. We present PIN-14M, an open-source dataset comprising 14 million samples derived from a diverse range of Chinese and English sources, tailored to include complex web and scientific content. This dataset is constructed meticulously to ensure data quality and ethical integrity, aiming to facilitate advanced training strategies and improve model robustness against common multimodal training pitfalls. Our initial results, forming the basis of this technical report, suggest significant potential for the PIN format in refining LMM performance, with plans for future expansions and detailed evaluations of its impact on model capabilities.

Summary

AI-Generated Summary

PDF231December 2, 2024