PIN: Un Dataset Ad Alto Contenuto di Conoscenza per Documenti Multimodali Accoppiati e Intervallati

Abstract

I recenti progressi nei Modelli Multimodali di Grande Scala (LMM) hanno sfruttato estesi dataset multimodali per potenziare le capacità in compiti complessi guidati dalla conoscenza. Tuttavia, persistenti sfide negli errori percettivi e di ragionamento ne limitano l'efficacia, in particolare nell'interpretazione di dati visivi intricati e nella deduzione di relazioni multimodali. Affrontando queste problematiche, introduciamo un nuovo formato di dataset, PIN (Paired and INterleaved multimodal documents), progettato per migliorare significativamente sia la profondità che l'ampiezza dell'addestramento multimodale. Il formato PIN si basa su tre principi fondamentali: intensità della conoscenza, scalabilità e supporto per diverse modalità di addestramento. Questo formato innovativo combina file markdown e immagini dettagliate per arricchire i dati di addestramento con una struttura di conoscenza densa e strategie di addestramento versatili. Presentiamo PIN-14M, un dataset open-source composto da 14 milioni di campioni derivati da una vasta gamma di fonti cinesi e inglesi, progettato per includere contenuti web e scientifici complessi. Questo dataset è costruito meticolosamente per garantire qualità dei dati e integrità etica, con l'obiettivo di facilitare strategie di addestramento avanzate e migliorare la robustezza del modello contro le comuni insidie dell'addestramento multimodale. I nostri risultati iniziali, che costituiscono la base di questo rapporto tecnico, suggeriscono un potenziale significativo del formato PIN nel perfezionare le prestazioni degli LMM, con piani per future espansioni e valutazioni dettagliate del suo impatto sulle capacità del modello.

English

Recent advancements in Large Multimodal Models (LMMs) have leveraged extensive multimodal datasets to enhance capabilities in complex knowledge-driven tasks. However, persistent challenges in perceptual and reasoning errors limit their efficacy, particularly in interpreting intricate visual data and deducing multimodal relationships. Addressing these issues, we introduce a novel dataset format, PIN (Paired and INterleaved multimodal documents), designed to significantly improve both the depth and breadth of multimodal training. The PIN format is built on three foundational principles: knowledge intensity, scalability, and support for diverse training modalities. This innovative format combines markdown files and comprehensive images to enrich training data with a dense knowledge structure and versatile training strategies. We present PIN-14M, an open-source dataset comprising 14 million samples derived from a diverse range of Chinese and English sources, tailored to include complex web and scientific content. This dataset is constructed meticulously to ensure data quality and ethical integrity, aiming to facilitate advanced training strategies and improve model robustness against common multimodal training pitfalls. Our initial results, forming the basis of this technical report, suggest significant potential for the PIN format in refining LMM performance, with plans for future expansions and detailed evaluations of its impact on model capabilities.

PIN: Un Dataset Ad Alto Contenuto di Conoscenza per Documenti Multimodali Accoppiati e Intervallati

PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

Abstract

Support