ChatRex: Het temmen van multimodale LLM voor gezamenlijke perceptie en begrip
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
November 27, 2024
Auteurs: Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang
cs.AI
Samenvatting
Perceptie en begrip zijn twee pijlers van computervisie. Hoewel multimodale grote taalmodellen (MLLM) opmerkelijke visuele begripscapaciteiten hebben aangetoond, ontbreekt het hen naar verluidt aan nauwkeurige perceptievermogens, bijvoorbeeld het geavanceerde model Qwen2-VL behaalt slechts een recall-rate van 43,9 op de COCO-dataset, wat veel taken beperkt die de combinatie van perceptie en begrip vereisen. In dit werk streven we ernaar deze perceptiekloof te overbruggen vanuit zowel het ontwerp van het model als het ontwikkelen van gegevens. We introduceren eerst ChatRex, een MLLM met een losgekoppeld perceptieontwerp. In plaats van dat het LLM direct de vakcoördinaten voorspelt, voeren we de uitvoervakken van een universeel voorstelnetwerk in het LLM in, zodat het de overeenkomstige vakindices kan uitvoeren om zijn detectieresultaten weer te geven, waardoor de regressietaak wordt omgezet in een opvragingstaak die het LLM vaardiger afhandelt. Vanuit het gegevensperspectief bouwen we een volledig geautomatiseerde gegevensengine en construeren we de Rexverse-2M dataset die meerdere granulariteiten bezit om de gezamenlijke training van perceptie en begrip te ondersteunen. Na standaard tweefasentraining toont ChatRex sterke perceptievermogens terwijl het multimodale begripsprestaties behoudt. De combinatie van deze twee vermogens ontgrendelt gelijktijdig veel aantrekkelijke toepassingen, waarbij de complementaire rollen van zowel perceptie als begrip in MLLM worden aangetoond. De code is beschikbaar op https://github.com/IDEA-Research/ChatRex.
English
Perception and understanding are two pillars of computer vision. While
multimodal large language models (MLLM) have demonstrated remarkable visual
understanding capabilities, they arguably lack accurate perception abilities,
e.g. the stage-of-the-art model Qwen2-VL only achieves a 43.9 recall rate on
the COCO dataset, limiting many tasks requiring the combination of perception
and understanding. In this work, we aim to bridge this perception gap from both
model designing and data development perspectives. We first introduce ChatRex,
an MLLM with a decoupled perception design. Instead of having the LLM directly
predict box coordinates, we feed the output boxes from a universal proposal
network into the LLM, allowing it to output the corresponding box indices to
represent its detection results, turning the regression task into a
retrieval-based task that LLM handles more proficiently. From the data
perspective, we build a fully automated data engine and construct the
Rexverse-2M dataset which possesses multiple granularities to support the joint
training of perception and understanding. After standard two-stage training,
ChatRex demonstrates strong perception capabilities while preserving multimodal
understanding performance. The combination of these two capabilities
simultaneously unlocks many attractive applications, demonstrating the
complementary roles of both perception and understanding in MLLM. Code is
available at https://github.com/IDEA-Research/ChatRex.Summary
AI-Generated Summary