SPHINX: A Mistura Conjunta de Pesos, Tarefas e Incorporações Visuais para Modelos de Linguagem de Grande Escala Multimodais

Resumo

Apresentamos o SPHINX, um modelo de linguagem multimodal de grande escala (MLLM) versátil com uma combinação conjunta de pesos do modelo, tarefas de ajuste e embeddings visuais. Primeiro, para um alinhamento mais forte entre visão e linguagem, descongelamos o modelo de linguagem de grande escala (LLM) durante o pré-treinamento e introduzimos uma estratégia de mistura de pesos entre LLMs treinados com dados do mundo real e sintéticos. Ao integrar diretamente os pesos dos dois domínios, o LLM misturado pode incorporar eficientemente semânticas diversas com robustez favorável. Em seguida, para habilitar capacidades multipropósito, misturamos uma variedade de tarefas para ajuste conjunto de instruções visuais e projetamos instruções específicas para cada tarefa, evitando conflitos entre elas. Além da resposta básica a perguntas visuais, incluímos tarefas mais desafiadoras, como compreensão em nível de região, ancoragem de legendas, detecção de layout de documentos e estimativa de pose humana, contribuindo para o aprimoramento mútuo em diferentes cenários. Adicionalmente, propomos extrair embeddings visuais abrangentes de várias arquiteturas de rede, paradigmas de pré-treinamento e granularidades de informação, fornecendo aos modelos de linguagem representações de imagem mais robustas. Com base na nossa proposta de mistura conjunta, o SPHINX exibe capacidades superiores de compreensão multimodal em uma ampla gama de aplicações. Além disso, propomos uma estratégia eficiente visando capturar melhor as aparências detalhadas de imagens de alta resolução. Com uma mistura de diferentes escalas e subimagens de alta resolução, o SPHINX alcança desempenho excepcional em análise visual e raciocínio nos benchmarks de avaliação existentes. Esperamos que nosso trabalho possa lançar luz sobre a exploração da mistura conjunta em futuras pesquisas de MLLM. O código está disponível em https://github.com/Alpha-VLLM/LLaMA2-Accessory.

English

We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings. First, for stronger vision-language alignment, we unfreeze the large language model (LLM) during pre-training, and introduce a weight mix strategy between LLMs trained by real-world and synthetic data. By directly integrating the weights from two domains, the mixed LLM can efficiently incorporate diverse semantics with favorable robustness. Then, to enable multi-purpose capabilities, we mix a variety of tasks for joint visual instruction tuning, and design task-specific instructions to avoid inter-task conflict. In addition to the basic visual question answering, we include more challenging tasks such as region-level understanding, caption grounding, document layout detection, and human pose estimation, contributing to mutual enhancement over different scenarios. Additionally, we propose to extract comprehensive visual embeddings from various network architectures, pre-training paradigms, and information granularity, providing language models with more robust image representations. Based on our proposed joint mixing, SPHINX exhibits superior multi-modal understanding capabilities on a wide range of applications. On top of this, we further propose an efficient strategy aiming to better capture fine-grained appearances of high-resolution images. With a mixing of different scales and high-resolution sub-images, SPHINX attains exceptional visual parsing and reasoning performance on existing evaluation benchmarks. We hope our work may cast a light on the exploration of joint mixing in future MLLM research. Code is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.

SPHINX: A Mistura Conjunta de Pesos, Tarefas e Incorporações Visuais para Modelos de Linguagem de Grande Escala Multimodais

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Resumo

Support