PIN: Un Dataset Ad Alto Contenuto di Conoscenza per Documenti Multimodali Accoppiati e Intervallati
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents
June 20, 2024
Autori: Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen
cs.AI
Abstract
I recenti progressi nei Modelli Multimodali di Grande Scala (LMM) hanno sfruttato estesi dataset multimodali per potenziare le capacità in compiti complessi guidati dalla conoscenza. Tuttavia, persistenti sfide negli errori percettivi e di ragionamento ne limitano l'efficacia, in particolare nell'interpretazione di dati visivi intricati e nella deduzione di relazioni multimodali. Affrontando queste problematiche, introduciamo un nuovo formato di dataset, PIN (Paired and INterleaved multimodal documents), progettato per migliorare significativamente sia la profondità che l'ampiezza dell'addestramento multimodale. Il formato PIN si basa su tre principi fondamentali: intensità della conoscenza, scalabilità e supporto per diverse modalità di addestramento. Questo formato innovativo combina file markdown e immagini dettagliate per arricchire i dati di addestramento con una struttura di conoscenza densa e strategie di addestramento versatili. Presentiamo PIN-14M, un dataset open-source composto da 14 milioni di campioni derivati da una vasta gamma di fonti cinesi e inglesi, progettato per includere contenuti web e scientifici complessi. Questo dataset è costruito meticolosamente per garantire qualità dei dati e integrità etica, con l'obiettivo di facilitare strategie di addestramento avanzate e migliorare la robustezza del modello contro le comuni insidie dell'addestramento multimodale. I nostri risultati iniziali, che costituiscono la base di questo rapporto tecnico, suggeriscono un potenziale significativo del formato PIN nel perfezionare le prestazioni degli LMM, con piani per future espansioni e valutazioni dettagliate del suo impatto sulle capacità del modello.
English
Recent advancements in Large Multimodal Models (LMMs) have leveraged
extensive multimodal datasets to enhance capabilities in complex
knowledge-driven tasks. However, persistent challenges in perceptual and
reasoning errors limit their efficacy, particularly in interpreting intricate
visual data and deducing multimodal relationships. Addressing these issues, we
introduce a novel dataset format, PIN (Paired and INterleaved multimodal
documents), designed to significantly improve both the depth and breadth of
multimodal training. The PIN format is built on three foundational principles:
knowledge intensity, scalability, and support for diverse training modalities.
This innovative format combines markdown files and comprehensive images to
enrich training data with a dense knowledge structure and versatile training
strategies. We present PIN-14M, an open-source dataset comprising 14 million
samples derived from a diverse range of Chinese and English sources, tailored
to include complex web and scientific content. This dataset is constructed
meticulously to ensure data quality and ethical integrity, aiming to facilitate
advanced training strategies and improve model robustness against common
multimodal training pitfalls. Our initial results, forming the basis of this
technical report, suggest significant potential for the PIN format in refining
LMM performance, with plans for future expansions and detailed evaluations of
its impact on model capabilities.