ChatRex : Apprivoiser le LLM multimodal pour la perception et la compréhension conjointes

papers.abstract

La perception et la compréhension sont deux piliers de la vision par ordinateur. Alors que les grands modèles de langage multimodaux (MLLM) ont démontré des capacités remarquables en matière de compréhension visuelle, ils manquent vraisemblablement de capacités de perception précise, par exemple, le modèle de pointe Qwen2-VL n'atteint qu'un taux de rappel de 43,9 % sur l'ensemble de données COCO, limitant de nombreuses tâches nécessitant la combinaison de la perception et de la compréhension. Dans ce travail, nous visons à combler ce fossé perceptif à la fois du point de vue de la conception du modèle et du développement des données. Nous introduisons d'abord ChatRex, un MLLM avec une conception de perception découplée. Au lieu de faire directement prédire les coordonnées des boîtes par le LLM, nous alimentons les boîtes de sortie d'un réseau de proposition universel dans le LLM, lui permettant de produire les indices de boîtes correspondants pour représenter ses résultats de détection, transformant la tâche de régression en une tâche basée sur la récupération que le LLM gère de manière plus efficace. Du point de vue des données, nous construisons un moteur de données entièrement automatisé et créons l'ensemble de données Rexverse-2M qui possède plusieurs granularités pour soutenir l'entraînement conjoint de la perception et de la compréhension. Après un entraînement standard en deux étapes, ChatRex démontre de solides capacités de perception tout en préservant les performances de compréhension multimodale. La combinaison de ces deux capacités débloque simultanément de nombreuses applications attrayantes, démontrant les rôles complémentaires de la perception et de la compréhension dans les MLLM. Le code est disponible sur https://github.com/IDEA-Research/ChatRex.

English

Perception and understanding are two pillars of computer vision. While multimodal large language models (MLLM) have demonstrated remarkable visual understanding capabilities, they arguably lack accurate perception abilities, e.g. the stage-of-the-art model Qwen2-VL only achieves a 43.9 recall rate on the COCO dataset, limiting many tasks requiring the combination of perception and understanding. In this work, we aim to bridge this perception gap from both model designing and data development perspectives. We first introduce ChatRex, an MLLM with a decoupled perception design. Instead of having the LLM directly predict box coordinates, we feed the output boxes from a universal proposal network into the LLM, allowing it to output the corresponding box indices to represent its detection results, turning the regression task into a retrieval-based task that LLM handles more proficiently. From the data perspective, we build a fully automated data engine and construct the Rexverse-2M dataset which possesses multiple granularities to support the joint training of perception and understanding. After standard two-stage training, ChatRex demonstrates strong perception capabilities while preserving multimodal understanding performance. The combination of these two capabilities simultaneously unlocks many attractive applications, demonstrating the complementary roles of both perception and understanding in MLLM. Code is available at https://github.com/IDEA-Research/ChatRex.

ChatRex : Apprivoiser le LLM multimodal pour la perception et la compréhension conjointes

ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

papers.abstract

Support