SPHINX-X: Escalando Datos y Parámetros para una Familia de Modelos de Lenguaje Multimodales de Gran Escala

Resumen

Proponemos SPHINX-X, una extensa serie de Modelos de Lenguaje de Gran Escala Multimodal (MLLM, por sus siglas en inglés) desarrollada sobre SPHINX. Para mejorar la arquitectura y la eficiencia del entrenamiento, modificamos el marco de SPHINX eliminando codificadores visuales redundantes, omitiendo subimágenes completamente rellenadas mediante tokens de salto y simplificando el entrenamiento multi-etapa en un paradigma todo-en-uno de una sola etapa. Para liberar plenamente el potencial de los MLLM, ensamblamos un conjunto de datos multimodal y multidominio que abarca recursos disponibles públicamente en tareas de lenguaje, visión y visión-lenguaje. Además, enriquecemos esta colección con nuestros conjuntos de datos curados intensivos en OCR y Set-of-Mark, ampliando la diversidad y generalidad. Al entrenar sobre diferentes modelos base de lenguaje de gran escala, como TinyLlama1.1B, InternLM2-7B, LLaMA2-13B y Mixtral8x7B, obtenemos un espectro de MLLM que varía en tamaño de parámetros y capacidades multilingües. Una evaluación exhaustiva revela una fuerte correlación entre el rendimiento multimodal y las escalas de datos y parámetros. El código y los modelos están disponibles en https://github.com/Alpha-VLLM/LLaMA2-Accessory.

English

We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory

SPHINX-X: Escalando Datos y Parámetros para una Familia de Modelos de Lenguaje Multimodales de Gran Escala

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Resumen

Support