ChatRex : Apprivoiser le LLM multimodal pour la perception et la compréhension conjointes
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
November 27, 2024
Auteurs: Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang
cs.AI
Résumé
La perception et la compréhension sont deux piliers de la vision par ordinateur. Alors que les grands modèles de langage multimodaux (MLLM) ont démontré des capacités remarquables en matière de compréhension visuelle, ils manquent vraisemblablement de capacités de perception précise, par exemple, le modèle de pointe Qwen2-VL n'atteint qu'un taux de rappel de 43,9 % sur l'ensemble de données COCO, limitant de nombreuses tâches nécessitant la combinaison de la perception et de la compréhension. Dans ce travail, nous visons à combler ce fossé perceptif à la fois du point de vue de la conception du modèle et du développement des données. Nous introduisons d'abord ChatRex, un MLLM avec une conception de perception découplée. Au lieu de faire directement prédire les coordonnées des boîtes par le LLM, nous alimentons les boîtes de sortie d'un réseau de proposition universel dans le LLM, lui permettant de produire les indices de boîtes correspondants pour représenter ses résultats de détection, transformant la tâche de régression en une tâche basée sur la récupération que le LLM gère de manière plus efficace. Du point de vue des données, nous construisons un moteur de données entièrement automatisé et créons l'ensemble de données Rexverse-2M qui possède plusieurs granularités pour soutenir l'entraînement conjoint de la perception et de la compréhension. Après un entraînement standard en deux étapes, ChatRex démontre de solides capacités de perception tout en préservant les performances de compréhension multimodale. La combinaison de ces deux capacités débloque simultanément de nombreuses applications attrayantes, démontrant les rôles complémentaires de la perception et de la compréhension dans les MLLM. Le code est disponible sur https://github.com/IDEA-Research/ChatRex.
English
Perception and understanding are two pillars of computer vision. While
multimodal large language models (MLLM) have demonstrated remarkable visual
understanding capabilities, they arguably lack accurate perception abilities,
e.g. the stage-of-the-art model Qwen2-VL only achieves a 43.9 recall rate on
the COCO dataset, limiting many tasks requiring the combination of perception
and understanding. In this work, we aim to bridge this perception gap from both
model designing and data development perspectives. We first introduce ChatRex,
an MLLM with a decoupled perception design. Instead of having the LLM directly
predict box coordinates, we feed the output boxes from a universal proposal
network into the LLM, allowing it to output the corresponding box indices to
represent its detection results, turning the regression task into a
retrieval-based task that LLM handles more proficiently. From the data
perspective, we build a fully automated data engine and construct the
Rexverse-2M dataset which possesses multiple granularities to support the joint
training of perception and understanding. After standard two-stage training,
ChatRex demonstrates strong perception capabilities while preserving multimodal
understanding performance. The combination of these two capabilities
simultaneously unlocks many attractive applications, demonstrating the
complementary roles of both perception and understanding in MLLM. Code is
available at https://github.com/IDEA-Research/ChatRex.Summary
AI-Generated Summary