PIN: Знаниевооруженный набор данных для сопоставленных и чередующихся мультимодальных документов
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents
June 20, 2024
Авторы: Junjie Wang, Yin Zhang, Yatai Ji, Yuxiang Zhang, Chunyang Jiang, Yubo Wang, Kang Zhu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Bei Chen, Qunshu Lin, Minghao Liu, Ge Zhang, Wenhu Chen
cs.AI
Аннотация
Недавние достижения в области крупных мультимодальных моделей (LMM) использовали обширные мультимодальные наборы данных для улучшения возможностей в сложных задачах, основанных на знаниях. Однако постоянные вызовы в восприятии и ошибки рассуждения ограничивают их эффективность, особенно в интерпретации сложных визуальных данных и выводе мультимодальных отношений. Для решения этих проблем мы представляем новый формат набора данных, PIN (Сопоставленные и Переплетенные мультимодальные документы), разработанный для значительного улучшения как глубины, так и ширины мультимодального обучения. Формат PIN основан на трех основных принципах: интенсивности знаний, масштабируемости и поддержке различных обучающих модальностей. Этот инновационный формат объединяет файлы разметки и обширные изображения для обогащения обучающих данных плотной структурой знаний и гибкими стратегиями обучения. Мы представляем набор данных PIN-14M, открытый набор данных, включающий 14 миллионов образцов, полученных из разнообразных источников на китайском и английском языках, адаптированный для включения сложного веб- и научного контента. Этот набор данных создан тщательно для обеспечения качества данных и этической целостности с целью облегчить продвинутые стратегии обучения и улучшить устойчивость модели к распространенным проблемам мультимодального обучения. Наши первоначальные результаты, лежащие в основе данного технического отчета, указывают на значительный потенциал формата PIN для улучшения производительности LMM, с планами на будущие расширения и подробные оценки его влияния на возможности модели.
English
Recent advancements in Large Multimodal Models (LMMs) have leveraged
extensive multimodal datasets to enhance capabilities in complex
knowledge-driven tasks. However, persistent challenges in perceptual and
reasoning errors limit their efficacy, particularly in interpreting intricate
visual data and deducing multimodal relationships. Addressing these issues, we
introduce a novel dataset format, PIN (Paired and INterleaved multimodal
documents), designed to significantly improve both the depth and breadth of
multimodal training. The PIN format is built on three foundational principles:
knowledge intensity, scalability, and support for diverse training modalities.
This innovative format combines markdown files and comprehensive images to
enrich training data with a dense knowledge structure and versatile training
strategies. We present PIN-14M, an open-source dataset comprising 14 million
samples derived from a diverse range of Chinese and English sources, tailored
to include complex web and scientific content. This dataset is constructed
meticulously to ensure data quality and ethical integrity, aiming to facilitate
advanced training strategies and improve model robustness against common
multimodal training pitfalls. Our initial results, forming the basis of this
technical report, suggest significant potential for the PIN format in refining
LMM performance, with plans for future expansions and detailed evaluations of
its impact on model capabilities.Summary
AI-Generated Summary