ChatPaper.aiChatPaper

ChatRex: Bändigung des Multimodalen LLM für Gemeinsame Wahrnehmung und Verständnis

ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

November 27, 2024
Autoren: Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang
cs.AI

Zusammenfassung

Wahrnehmung und Verständnis sind zwei Grundpfeiler der Computer Vision. Während multimodale große Sprachmodelle (MLLM) bemerkenswerte visuelle Verständnisfähigkeiten gezeigt haben, fehlt es ihnen möglicherweise an genauen Wahrnehmungsfähigkeiten, z.B. erreicht das modernste Modell Qwen2-VL nur eine Rückrufrate von 43,9 auf dem COCO-Datensatz, was viele Aufgaben einschränkt, die die Kombination von Wahrnehmung und Verständnis erfordern. In dieser Arbeit zielen wir darauf ab, diese Wahrnehmungslücke aus Modellierungs- und Datenentwicklungsperspektiven zu überbrücken. Zunächst stellen wir ChatRex vor, ein MLLM mit einem entkoppelten Wahrnehmungsdesign. Anstatt dass das LLM direkt Box-Koordinaten vorhersagt, speisen wir die Ausgabeboxen eines universellen Vorschlagsnetzwerks in das LLM ein, sodass es die entsprechenden Boxindizes ausgibt, um seine Detektionsergebnisse darzustellen, wodurch die Regressionsaufgabe in eine abrufbasierte Aufgabe umgewandelt wird, die das LLM effizienter handhabt. Aus der Datenperspektive heraus bauen wir eine vollautomatisierte Datenengine auf und erstellen den Rexverse-2M-Datensatz, der mehrere Granularitäten aufweist, um das gemeinsame Training von Wahrnehmung und Verständnis zu unterstützen. Nach dem standardmäßigen zweistufigen Training zeigt ChatRex starke Wahrnehmungsfähigkeiten, während es die multimodale Verständnisleistung beibehält. Die Kombination dieser beiden Fähigkeiten schaltet gleichzeitig viele attraktive Anwendungen frei und zeigt die ergänzenden Rollen von Wahrnehmung und Verständnis in MLLM. Der Code ist verfügbar unter https://github.com/IDEA-Research/ChatRex.
English
Perception and understanding are two pillars of computer vision. While multimodal large language models (MLLM) have demonstrated remarkable visual understanding capabilities, they arguably lack accurate perception abilities, e.g. the stage-of-the-art model Qwen2-VL only achieves a 43.9 recall rate on the COCO dataset, limiting many tasks requiring the combination of perception and understanding. In this work, we aim to bridge this perception gap from both model designing and data development perspectives. We first introduce ChatRex, an MLLM with a decoupled perception design. Instead of having the LLM directly predict box coordinates, we feed the output boxes from a universal proposal network into the LLM, allowing it to output the corresponding box indices to represent its detection results, turning the regression task into a retrieval-based task that LLM handles more proficiently. From the data perspective, we build a fully automated data engine and construct the Rexverse-2M dataset which possesses multiple granularities to support the joint training of perception and understanding. After standard two-stage training, ChatRex demonstrates strong perception capabilities while preserving multimodal understanding performance. The combination of these two capabilities simultaneously unlocks many attractive applications, demonstrating the complementary roles of both perception and understanding in MLLM. Code is available at https://github.com/IDEA-Research/ChatRex.

Summary

AI-Generated Summary

PDF103November 28, 2024