ChatPaper.aiChatPaper

SPHINX: Совместное смешивание весов, задач и визуальных эмбеддингов для многомодальных больших языковых моделей

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

November 13, 2023
Авторы: Ziyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao
cs.AI

Аннотация

Мы представляем SPHINX, универсальную многомодальную большую языковую модель (MLLM) с совместным смешиванием весов модели, задач настройки и визуальных эмбеддингов. Во-первых, для более сильного согласования между визуальными и языковыми данными мы размораживаем большую языковую модель (LLM) в процессе предварительного обучения и вводим стратегию смешивания весов между LLM, обученными на реальных и синтетических данных. Путем прямого интегрирования весов из двух областей смешанная LLM может эффективно объединять разнообразные семантики с высокой устойчивостью. Затем, чтобы обеспечить многоцелевые возможности, мы смешиваем различные задачи для совместной настройки визуальных инструкций и разрабатываем специфичные для задач инструкции, чтобы избежать конфликтов между ними. В дополнение к базовому визуальному вопросно-ответному взаимодействию мы включаем более сложные задачи, такие как понимание на уровне регионов, привязка подписей, обнаружение структуры документов и оценка позы человека, что способствует взаимному улучшению в различных сценариях. Кроме того, мы предлагаем извлекать комплексные визуальные эмбеддинги из различных архитектур сетей, парадигм предварительного обучения и уровней информационной детализации, предоставляя языковым моделям более устойчивые представления изображений. Благодаря нашему предложенному совместному смешиванию, SPHINX демонстрирует превосходные способности к многомодальному пониманию в широком спектре приложений. В дополнение к этому, мы предлагаем эффективную стратегию, направленную на лучшее захват детализированных особенностей изображений высокого разрешения. Смешивая различные масштабы и подизображения высокого разрешения, SPHINX достигает исключительной производительности в визуальном анализе и рассуждении на существующих оценочных тестах. Мы надеемся, что наша работа послужит вдохновением для исследования совместного смешивания в будущих исследованиях MLLM. Код доступен по адресу https://github.com/Alpha-VLLM/LLaMA2-Accessory.
English
We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings. First, for stronger vision-language alignment, we unfreeze the large language model (LLM) during pre-training, and introduce a weight mix strategy between LLMs trained by real-world and synthetic data. By directly integrating the weights from two domains, the mixed LLM can efficiently incorporate diverse semantics with favorable robustness. Then, to enable multi-purpose capabilities, we mix a variety of tasks for joint visual instruction tuning, and design task-specific instructions to avoid inter-task conflict. In addition to the basic visual question answering, we include more challenging tasks such as region-level understanding, caption grounding, document layout detection, and human pose estimation, contributing to mutual enhancement over different scenarios. Additionally, we propose to extract comprehensive visual embeddings from various network architectures, pre-training paradigms, and information granularity, providing language models with more robust image representations. Based on our proposed joint mixing, SPHINX exhibits superior multi-modal understanding capabilities on a wide range of applications. On top of this, we further propose an efficient strategy aiming to better capture fine-grained appearances of high-resolution images. With a mixing of different scales and high-resolution sub-images, SPHINX attains exceptional visual parsing and reasoning performance on existing evaluation benchmarks. We hope our work may cast a light on the exploration of joint mixing in future MLLM research. Code is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.
PDF150December 15, 2024