ChatPaper.aiChatPaper

PIN: Een kennisintensieve dataset voor gepaarde en interleavende multimodale documenten

PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

June 20, 2024
Auteurs: Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen
cs.AI

Samenvatting

Recente vooruitgang in Grote Multimodale Modellen (LMMs) heeft gebruikgemaakt van uitgebreide multimodale datasets om de mogelijkheden in complexe kennisgedreven taken te verbeteren. Aanhoudende uitdagingen op het gebied van perceptuele en redeneerfouten beperken echter hun effectiviteit, met name bij het interpreteren van ingewikkelde visuele gegevens en het afleiden van multimodale relaties. Om deze problemen aan te pakken, introduceren we een nieuw datasetformaat, PIN (Gekoppelde en INterleaved multimodale documenten), dat is ontworpen om zowel de diepte als de breedte van multimodale training aanzienlijk te verbeteren. Het PIN-formaat is gebaseerd op drie fundamentele principes: kennisintensiteit, schaalbaarheid en ondersteuning voor diverse trainingsmodaliteiten. Dit innovatieve formaat combineert markdown-bestanden en uitgebreide afbeeldingen om de trainingsdata te verrijken met een dichte kennisstructuur en veelzijdige trainingsstrategieën. We presenteren PIN-14M, een open-source dataset bestaande uit 14 miljoen samples afkomstig uit een diverse reeks Chinese en Engelse bronnen, afgestemd op het opnemen van complexe web- en wetenschappelijke inhoud. Deze dataset is zorgvuldig opgebouwd om de kwaliteit van de gegevens en ethische integriteit te waarborgen, met als doel geavanceerde trainingsstrategieën te faciliteren en de robuustheid van modellen tegen veelvoorkomende multimodale trainingsvalkuilen te verbeteren. Onze eerste resultaten, die de basis vormen van dit technische rapport, suggereren aanzienlijk potentieel voor het PIN-formaat in het verfijnen van LMM-prestaties, met plannen voor toekomstige uitbreidingen en gedetailleerde evaluaties van de impact op modelmogelijkheden.
English
Recent advancements in Large Multimodal Models (LMMs) have leveraged extensive multimodal datasets to enhance capabilities in complex knowledge-driven tasks. However, persistent challenges in perceptual and reasoning errors limit their efficacy, particularly in interpreting intricate visual data and deducing multimodal relationships. Addressing these issues, we introduce a novel dataset format, PIN (Paired and INterleaved multimodal documents), designed to significantly improve both the depth and breadth of multimodal training. The PIN format is built on three foundational principles: knowledge intensity, scalability, and support for diverse training modalities. This innovative format combines markdown files and comprehensive images to enrich training data with a dense knowledge structure and versatile training strategies. We present PIN-14M, an open-source dataset comprising 14 million samples derived from a diverse range of Chinese and English sources, tailored to include complex web and scientific content. This dataset is constructed meticulously to ensure data quality and ethical integrity, aiming to facilitate advanced training strategies and improve model robustness against common multimodal training pitfalls. Our initial results, forming the basis of this technical report, suggest significant potential for the PIN format in refining LMM performance, with plans for future expansions and detailed evaluations of its impact on model capabilities.
PDF241December 2, 2024