ChatPaper.aiChatPaper

SPHINX: La Mezcla Conjunta de Pesos, Tareas e Incrustaciones Visuales para Modelos de Lenguaje de Gran Escala Multimodales

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

November 13, 2023
Autores: Ziyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao
cs.AI

Resumen

Presentamos SPHINX, un modelo de lenguaje multimodal de gran escala (MLLM) versátil con una mezcla conjunta de pesos del modelo, tareas de ajuste y representaciones visuales. En primer lugar, para lograr una mejor alineación entre visión y lenguaje, descongelamos el modelo de lenguaje de gran escala (LLM) durante el preentrenamiento e introducimos una estrategia de mezcla de pesos entre LLM entrenados con datos del mundo real y sintéticos. Al integrar directamente los pesos de ambos dominios, el LLM mezclado puede incorporar de manera eficiente semánticas diversas con una robustez favorable. Luego, para habilitar capacidades multipropósito, mezclamos una variedad de tareas para un ajuste conjunto de instrucciones visuales y diseñamos instrucciones específicas para cada tarea, evitando conflictos entre ellas. Además de la respuesta básica a preguntas visuales, incluimos tareas más desafiantes como la comprensión a nivel de región, la anclaje de descripciones, la detección de diseño de documentos y la estimación de posturas humanas, contribuyendo a una mejora mutua en diferentes escenarios. Adicionalmente, proponemos extraer representaciones visuales integrales de diversas arquitecturas de red, paradigmas de preentrenamiento y granularidad de información, proporcionando a los modelos de lenguaje representaciones de imágenes más robustas. Basado en nuestra propuesta de mezcla conjunta, SPHINX exhibe capacidades superiores de comprensión multimodal en una amplia gama de aplicaciones. Sobre esto, proponemos además una estrategia eficiente para capturar mejor las apariencias detalladas de imágenes de alta resolución. Con una mezcla de diferentes escalas y subimágenes de alta resolución, SPHINX alcanza un rendimiento excepcional en análisis visual y razonamiento en los benchmarks de evaluación existentes. Esperamos que nuestro trabajo arroje luz sobre la exploración de la mezcla conjunta en futuras investigaciones de MLLM. El código está disponible en https://github.com/Alpha-VLLM/LLaMA2-Accessory.
English
We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings. First, for stronger vision-language alignment, we unfreeze the large language model (LLM) during pre-training, and introduce a weight mix strategy between LLMs trained by real-world and synthetic data. By directly integrating the weights from two domains, the mixed LLM can efficiently incorporate diverse semantics with favorable robustness. Then, to enable multi-purpose capabilities, we mix a variety of tasks for joint visual instruction tuning, and design task-specific instructions to avoid inter-task conflict. In addition to the basic visual question answering, we include more challenging tasks such as region-level understanding, caption grounding, document layout detection, and human pose estimation, contributing to mutual enhancement over different scenarios. Additionally, we propose to extract comprehensive visual embeddings from various network architectures, pre-training paradigms, and information granularity, providing language models with more robust image representations. Based on our proposed joint mixing, SPHINX exhibits superior multi-modal understanding capabilities on a wide range of applications. On top of this, we further propose an efficient strategy aiming to better capture fine-grained appearances of high-resolution images. With a mixing of different scales and high-resolution sub-images, SPHINX attains exceptional visual parsing and reasoning performance on existing evaluation benchmarks. We hope our work may cast a light on the exploration of joint mixing in future MLLM research. Code is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.
PDF150December 15, 2024