PIN: Un Conjunto de Datos de Alta Complejidad para Documentos Multimodales Emparejados e Intercalados
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents
June 20, 2024
Autores: Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen
cs.AI
Resumen
Los avances recientes en los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) han aprovechado extensos conjuntos de datos multimodales para mejorar las capacidades en tareas complejas basadas en conocimiento. Sin embargo, los desafíos persistentes en errores de percepción y razonamiento limitan su eficacia, particularmente en la interpretación de datos visuales intrincados y la deducción de relaciones multimodales. Para abordar estos problemas, presentamos un formato novedoso de conjunto de datos, PIN (Documentos Multimodales Emparejados e Intercalados), diseñado para mejorar significativamente tanto la profundidad como la amplitud del entrenamiento multimodal. El formato PIN se basa en tres principios fundamentales: intensidad de conocimiento, escalabilidad y soporte para diversas modalidades de entrenamiento. Este formato innovador combina archivos markdown e imágenes detalladas para enriquecer los datos de entrenamiento con una estructura de conocimiento densa y estrategias de entrenamiento versátiles. Presentamos PIN-14M, un conjunto de datos de código abierto que comprende 14 millones de muestras derivadas de una amplia gama de fuentes en chino e inglés, diseñado para incluir contenido web y científico complejo. Este conjunto de datos se construye meticulosamente para garantizar la calidad de los datos y la integridad ética, con el objetivo de facilitar estrategias de entrenamiento avanzadas y mejorar la robustez del modelo frente a los desafíos comunes del entrenamiento multimodal. Nuestros resultados iniciales, que forman la base de este informe técnico, sugieren un potencial significativo para el formato PIN en la mejora del rendimiento de los LMMs, con planes para futuras expansiones y evaluaciones detalladas de su impacto en las capacidades del modelo.
English
Recent advancements in Large Multimodal Models (LMMs) have leveraged
extensive multimodal datasets to enhance capabilities in complex
knowledge-driven tasks. However, persistent challenges in perceptual and
reasoning errors limit their efficacy, particularly in interpreting intricate
visual data and deducing multimodal relationships. Addressing these issues, we
introduce a novel dataset format, PIN (Paired and INterleaved multimodal
documents), designed to significantly improve both the depth and breadth of
multimodal training. The PIN format is built on three foundational principles:
knowledge intensity, scalability, and support for diverse training modalities.
This innovative format combines markdown files and comprehensive images to
enrich training data with a dense knowledge structure and versatile training
strategies. We present PIN-14M, an open-source dataset comprising 14 million
samples derived from a diverse range of Chinese and English sources, tailored
to include complex web and scientific content. This dataset is constructed
meticulously to ensure data quality and ethical integrity, aiming to facilitate
advanced training strategies and improve model robustness against common
multimodal training pitfalls. Our initial results, forming the basis of this
technical report, suggest significant potential for the PIN format in refining
LMM performance, with plans for future expansions and detailed evaluations of
its impact on model capabilities.Summary
AI-Generated Summary