Grobe Entsprechungen fördern das Verständnis von 3D-Raumzeit in multimodellen Sprachmodellen.

papers.abstract

Multimodale Sprachmodelle (MLLMs) werden zunehmend in realen Umgebungen implementiert, was ihre Fähigkeit zur Interpretation von 3D-Räumen und zum Verständnis zeitlicher Dynamiken erfordert. Trotz ihres Potenzials sind die aktuellen Spitzenmodelle innerhalb unserer Gemeinschaft immer noch nicht in der Lage, räumliche und zeitliche Dimensionen angemessen zu verstehen. Wir stellen Coarse Correspondence vor, eine einfache, trainingsfreie, effektive und vielseitige visuelle Anregungsmethode, um 3D- und zeitliches Verständnis in multimodalen LLMs hervorzurufen. Unsere Methode verwendet ein leichtgewichtiges Tracking-Modell, um Objektkorrespondenzen zwischen Frames in einem Video oder zwischen Sets von Bildansichten zu finden. Sie wählt die häufigsten Objektinstanzen aus und visualisiert sie mit Markern mit eindeutigen IDs im Bild. Mit diesem einfachen Ansatz erzielen wir Spitzenleistungen bei 3D-Verständnis-Benchmarks, einschließlich ScanQA (+20,5 %) und einem Teil von OpenEQA (+9,7 %), sowie bei Langform-Video-Benchmarks wie EgoSchema (+6,0 %). Wir erstellen auch ein kleines diagnostisches Datenset, um zu bewerten, ob MLLMs aus einer anderen als der Kameraperspektive über einen Raum nachdenken können. Erneut verbessert Coarse Correspondence die Fähigkeiten zur räumlichen Perspektivenübernahme, aber wir betonen, dass MLLMs mit dieser Aufgabe zu kämpfen haben. Zusammen zeigen wir, dass unsere einfache Anregungsmethode wesentlich dazu beitragen kann, nachgelagerte Aufgaben zu unterstützen, die 3D- oder zeitliches Denken erfordern.

English

Multimodal language models (MLLMs) are increasingly being implemented in real-world environments, necessitating their ability to interpret 3D spaces and comprehend temporal dynamics. Despite their potential, current top models within our community still fall short in adequately understanding spatial and temporal dimensions. We introduce Coarse Correspondence, a simple, training-free, effective, and general-purpose visual prompting method to elicit 3D and temporal understanding in multimodal LLMs. Our method uses a lightweight tracking model to find object correspondences between frames in a video or between sets of image viewpoints. It selects the most frequent object instances and visualizes them with markers with unique IDs in the image. With this simple approach, we achieve state-of-the-art results on 3D understanding benchmarks including ScanQA (+20.5\%) and a subset of OpenEQA (+9.7\%), and on long-form video benchmarks such as EgoSchema (+6.0\%). We also curate a small diagnostic dataset to evaluate whether MLLMs can reason about space from a described viewpoint other than the camera viewpoint. Again, Coarse Correspondence improves spatial perspective-taking abilities but we highlight that MLLMs struggle with this task. Together, we demonstrate that our simple prompting method can significantly aid downstream tasks that require 3D or temporal reasoning.

Grobe Entsprechungen fördern das Verständnis von 3D-Raumzeit in multimodellen Sprachmodellen.

Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model

papers.abstract

Support