ChatRex: Domando o LLM Multimodal para Percepção e Compreensão Conjuntas
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
November 27, 2024
Autores: Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang
cs.AI
Resumo
Percepção e compreensão são dois pilares da visão computacional. Enquanto os modelos de linguagem multimodais de grande porte (MLLM) têm demonstrado notáveis capacidades de compreensão visual, eles possivelmente carecem de habilidades de percepção precisas, por exemplo, o modelo de ponta Qwen2-VL alcança apenas uma taxa de recall de 43,9 no conjunto de dados COCO, limitando muitas tarefas que requerem a combinação de percepção e compreensão. Neste trabalho, temos como objetivo preencher essa lacuna de percepção tanto do ponto de vista do design do modelo quanto do desenvolvimento de dados. Primeiramente, introduzimos o ChatRex, um MLLM com um design de percepção desacoplado. Em vez de fazer com que o MLLM preveja diretamente as coordenadas da caixa, alimentamos as caixas de saída de uma rede de propostas universal no MLLM, permitindo que ele produza os índices de caixa correspondentes para representar seus resultados de detecção, transformando a tarefa de regressão em uma tarefa baseada em recuperação que o MLLM manipula de forma mais proficiente. Do ponto de vista dos dados, construímos um mecanismo de dados totalmente automatizado e criamos o conjunto de dados Rexverse-2M, que possui múltiplas granularidades para apoiar o treinamento conjunto de percepção e compreensão. Após o treinamento padrão em duas etapas, o ChatRex demonstra fortes capacidades de percepção, preservando ao mesmo tempo o desempenho de compreensão multimodal. A combinação dessas duas capacidades desbloqueia simultaneamente muitas aplicações atraentes, demonstrando os papéis complementares da percepção e compreensão nos MLLM. O código está disponível em https://github.com/IDEA-Research/ChatRex.
English
Perception and understanding are two pillars of computer vision. While
multimodal large language models (MLLM) have demonstrated remarkable visual
understanding capabilities, they arguably lack accurate perception abilities,
e.g. the stage-of-the-art model Qwen2-VL only achieves a 43.9 recall rate on
the COCO dataset, limiting many tasks requiring the combination of perception
and understanding. In this work, we aim to bridge this perception gap from both
model designing and data development perspectives. We first introduce ChatRex,
an MLLM with a decoupled perception design. Instead of having the LLM directly
predict box coordinates, we feed the output boxes from a universal proposal
network into the LLM, allowing it to output the corresponding box indices to
represent its detection results, turning the regression task into a
retrieval-based task that LLM handles more proficiently. From the data
perspective, we build a fully automated data engine and construct the
Rexverse-2M dataset which possesses multiple granularities to support the joint
training of perception and understanding. After standard two-stage training,
ChatRex demonstrates strong perception capabilities while preserving multimodal
understanding performance. The combination of these two capabilities
simultaneously unlocks many attractive applications, demonstrating the
complementary roles of both perception and understanding in MLLM. Code is
available at https://github.com/IDEA-Research/ChatRex.Summary
AI-Generated Summary