PIN: Um Conjunto de Dados Intensivo em Conhecimento para Documentos Multimodais Emparelhados e Intercalados
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents
June 20, 2024
Autores: Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen
cs.AI
Resumo
Os avanços recentes em Modelos Multimodais de Grande Escala (LMMs) têm aproveitado extensos conjuntos de dados multimodais para aprimorar capacidades em tarefas complexas orientadas por conhecimento. No entanto, desafios persistentes em erros perceptivos e de raciocínio limitam sua eficácia, especialmente na interpretação de dados visuais intrincados e na dedução de relações multimodais. Para abordar essas questões, introduzimos um novo formato de conjunto de dados, PIN (Documentos Multimodais Pareados e Intercalados), projetado para melhorar significativamente a profundidade e a amplitude do treinamento multimodal. O formato PIN é construído sobre três princípios fundamentais: intensidade de conhecimento, escalabilidade e suporte para diversas modalidades de treinamento. Esse formato inovador combina arquivos markdown e imagens abrangentes para enriquecer os dados de treinamento com uma estrutura de conhecimento densa e estratégias de treinamento versáteis. Apresentamos o PIN-14M, um conjunto de dados de código aberto composto por 14 milhões de amostras derivadas de uma variedade de fontes chinesas e inglesas, projetado para incluir conteúdo complexo da web e científico. Esse conjunto de dados é construído meticulosamente para garantir qualidade dos dados e integridade ética, com o objetivo de facilitar estratégias avançadas de treinamento e melhorar a robustez do modelo contra armadilhas comuns no treinamento multimodal. Nossos resultados iniciais, que formam a base deste relatório técnico, sugerem um potencial significativo para o formato PIN no refinamento do desempenho dos LMMs, com planos para expansões futuras e avaliações detalhadas de seu impacto nas capacidades dos modelos.
English
Recent advancements in Large Multimodal Models (LMMs) have leveraged
extensive multimodal datasets to enhance capabilities in complex
knowledge-driven tasks. However, persistent challenges in perceptual and
reasoning errors limit their efficacy, particularly in interpreting intricate
visual data and deducing multimodal relationships. Addressing these issues, we
introduce a novel dataset format, PIN (Paired and INterleaved multimodal
documents), designed to significantly improve both the depth and breadth of
multimodal training. The PIN format is built on three foundational principles:
knowledge intensity, scalability, and support for diverse training modalities.
This innovative format combines markdown files and comprehensive images to
enrich training data with a dense knowledge structure and versatile training
strategies. We present PIN-14M, an open-source dataset comprising 14 million
samples derived from a diverse range of Chinese and English sources, tailored
to include complex web and scientific content. This dataset is constructed
meticulously to ensure data quality and ethical integrity, aiming to facilitate
advanced training strategies and improve model robustness against common
multimodal training pitfalls. Our initial results, forming the basis of this
technical report, suggest significant potential for the PIN format in refining
LMM performance, with plans for future expansions and detailed evaluations of
its impact on model capabilities.