Grobe Entsprechungen fördern das Verständnis von 3D-Raumzeit in multimodellen Sprachmodellen.
Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model
August 1, 2024
papers.authors: Benlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna
cs.AI
papers.abstract
Multimodale Sprachmodelle (MLLMs) werden zunehmend in realen Umgebungen implementiert, was ihre Fähigkeit zur Interpretation von 3D-Räumen und zum Verständnis zeitlicher Dynamiken erfordert. Trotz ihres Potenzials sind die aktuellen Spitzenmodelle innerhalb unserer Gemeinschaft immer noch nicht in der Lage, räumliche und zeitliche Dimensionen angemessen zu verstehen. Wir stellen Coarse Correspondence vor, eine einfache, trainingsfreie, effektive und vielseitige visuelle Anregungsmethode, um 3D- und zeitliches Verständnis in multimodalen LLMs hervorzurufen. Unsere Methode verwendet ein leichtgewichtiges Tracking-Modell, um Objektkorrespondenzen zwischen Frames in einem Video oder zwischen Sets von Bildansichten zu finden. Sie wählt die häufigsten Objektinstanzen aus und visualisiert sie mit Markern mit eindeutigen IDs im Bild. Mit diesem einfachen Ansatz erzielen wir Spitzenleistungen bei 3D-Verständnis-Benchmarks, einschließlich ScanQA (+20,5 %) und einem Teil von OpenEQA (+9,7 %), sowie bei Langform-Video-Benchmarks wie EgoSchema (+6,0 %). Wir erstellen auch ein kleines diagnostisches Datenset, um zu bewerten, ob MLLMs aus einer anderen als der Kameraperspektive über einen Raum nachdenken können. Erneut verbessert Coarse Correspondence die Fähigkeiten zur räumlichen Perspektivenübernahme, aber wir betonen, dass MLLMs mit dieser Aufgabe zu kämpfen haben. Zusammen zeigen wir, dass unsere einfache Anregungsmethode wesentlich dazu beitragen kann, nachgelagerte Aufgaben zu unterstützen, die 3D- oder zeitliches Denken erfordern.
English
Multimodal language models (MLLMs) are increasingly being implemented in
real-world environments, necessitating their ability to interpret 3D spaces and
comprehend temporal dynamics. Despite their potential, current top models
within our community still fall short in adequately understanding spatial and
temporal dimensions. We introduce Coarse Correspondence, a simple,
training-free, effective, and general-purpose visual prompting method to elicit
3D and temporal understanding in multimodal LLMs. Our method uses a lightweight
tracking model to find object correspondences between frames in a video or
between sets of image viewpoints. It selects the most frequent object instances
and visualizes them with markers with unique IDs in the image. With this simple
approach, we achieve state-of-the-art results on 3D understanding benchmarks
including ScanQA (+20.5\%) and a subset of OpenEQA (+9.7\%), and on long-form
video benchmarks such as EgoSchema (+6.0\%). We also curate a small diagnostic
dataset to evaluate whether MLLMs can reason about space from a described
viewpoint other than the camera viewpoint. Again, Coarse Correspondence
improves spatial perspective-taking abilities but we highlight that MLLMs
struggle with this task. Together, we demonstrate that our simple prompting
method can significantly aid downstream tasks that require 3D or temporal
reasoning.