ChatPaper.aiChatPaper

Wahrnehmungstoken verbessern die visuelle Argumentation in multimodalen Sprachmodellen.

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

December 4, 2024
Autoren: Mahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna
cs.AI

Zusammenfassung

Multimodale Sprachmodelle (MLMs) stehen nach wie vor vor Herausforderungen bei grundlegenden visuellen Wahrnehmungsaufgaben, bei denen spezialisierte Modelle glänzen. Aufgaben, die ein Verständnis von 3D-Strukturen erfordern, profitieren von Tiefenschätzung, während Aufgaben, die ein Verständnis von 2D-Objektinstanzen erfordern, von Objekterkennung profitieren. Dennoch können MLMs keine Zwischentiefen oder Boxen erzeugen, über die sie Schlussfolgerungen ziehen können. Das Feinabstimmen von MLMs auf relevante Daten generalisiert nicht gut, und die Auslagerung von Berechnungen an spezialisierte Visionstools ist zu rechenintensiv und ineffizient im Speicherbedarf. Um dies anzugehen, führen wir Perception Tokens ein, intrinsische Bildrepräsentationen, die dazu dienen, bei Aufgaben zu unterstützen, bei denen Sprache nicht ausreicht. Perception Tokens fungieren als zusätzliche Schlussfolgerungstoken, ähnlich wie Gedankenketten-Prompts in Sprachmodellen. Zum Beispiel kann ein MLM, das mit Perception Tokens erweitert wurde, bei einer tiefenbezogenen Aufgabe durch Generierung einer Tiefenkarte als Tokens Schlussfolgerungen ziehen und das Problem effektiv lösen. Wir schlagen AURORA vor, eine Schulungsmethode, die MLMs mit Perception Tokens zur verbesserten Schlussfolgerung über visuelle Eingaben erweitert. AURORA nutzt eine VQVAE, um Zwischenbildrepräsentationen, wie Tiefenkarten, in ein tokenisiertes Format und Bounding-Box-Tokens zu transformieren, die dann in einem Multi-Task-Schulungsrahmen verwendet werden. AURORA erzielt bemerkenswerte Verbesserungen bei Zähl-Benchmarks: +10,8 % bei BLINK, +11,3 % bei CVBench und +8,3 % bei SEED-Bench, wobei es die Feinabstimmungsansätze in der Generalisierung über Datensätze übertrifft. Es verbessert auch die relative Tiefe um über +6 % bei BLINK. Mit Perception Tokens erweitert AURORA den Anwendungsbereich von MLMs über sprachbasierte Schlussfolgerungen hinaus und ebnet den Weg für effektivere visuelle Schlussfolgerungsfähigkeiten.
English
Multimodal language models (MLMs) still face challenges in fundamental visual perception tasks where specialized models excel. Tasks requiring reasoning about 3D structures benefit from depth estimation, and reasoning about 2D object instances benefits from object detection. Yet, MLMs can not produce intermediate depth or boxes to reason over. Finetuning MLMs on relevant data doesn't generalize well and outsourcing computation to specialized vision tools is too compute-intensive and memory-inefficient. To address this, we introduce Perception Tokens, intrinsic image representations designed to assist reasoning tasks where language is insufficient. Perception tokens act as auxiliary reasoning tokens, akin to chain-of-thought prompts in language models. For example, in a depth-related task, an MLM augmented with perception tokens can reason by generating a depth map as tokens, enabling it to solve the problem effectively. We propose AURORA, a training method that augments MLMs with perception tokens for improved reasoning over visual inputs. AURORA leverages a VQVAE to transform intermediate image representations, such as depth maps into a tokenized format and bounding box tokens, which is then used in a multi-task training framework. AURORA achieves notable improvements across counting benchmarks: +10.8% on BLINK, +11.3% on CVBench, and +8.3% on SEED-Bench, outperforming finetuning approaches in generalization across datasets. It also improves on relative depth: over +6% on BLINK. With perception tokens, AURORA expands the scope of MLMs beyond language-based reasoning, paving the way for more effective visual reasoning capabilities.

Summary

AI-Generated Summary

PDF172December 11, 2024