ChatPaper.aiChatPaper

Correspondencia Gruesa Elicita Comprensión del Espaciotiempo 3D en un Modelo de Lenguaje Multimodal

Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model

August 1, 2024
Autores: Benlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna
cs.AI

Resumen

Los modelos de lenguaje multimodales (MLLMs) se están implementando cada vez más en entornos del mundo real, lo que exige su capacidad para interpretar espacios tridimensionales y comprender dinámicas temporales. A pesar de su potencial, los modelos líderes actuales en nuestra comunidad aún no logran comprender adecuadamente las dimensiones espaciales y temporales. Presentamos Correspondencia Gruesa, un método visual simple, sin necesidad de entrenamiento, efectivo y de propósito general para provocar la comprensión tridimensional y temporal en MLLMs multimodales. Nuestro método utiliza un modelo de seguimiento ligero para encontrar correspondencias de objetos entre fotogramas en un video o entre conjuntos de puntos de vista de imágenes. Selecciona las instancias de objetos más frecuentes y las visualiza con marcadores con identificadores únicos en la imagen. Con este enfoque sencillo, logramos resultados de vanguardia en pruebas de comprensión 3D, incluyendo ScanQA (+20.5\%) y un subconjunto de OpenEQA (+9.7%), y en pruebas de video de larga duración como EgoSchema (+6.0%). También creamos un pequeño conjunto de datos de diagnóstico para evaluar si los MLLMs pueden razonar sobre el espacio desde un punto de vista descrito que no sea el del punto de vista de la cámara. Nuevamente, Correspondencia Gruesa mejora las habilidades de toma de perspectiva espacial, pero destacamos que los MLLMs tienen dificultades con esta tarea. En conjunto, demostramos que nuestro simple método de provocación puede ayudar significativamente en tareas posteriores que requieran razonamiento 3D o temporal.
English
Multimodal language models (MLLMs) are increasingly being implemented in real-world environments, necessitating their ability to interpret 3D spaces and comprehend temporal dynamics. Despite their potential, current top models within our community still fall short in adequately understanding spatial and temporal dimensions. We introduce Coarse Correspondence, a simple, training-free, effective, and general-purpose visual prompting method to elicit 3D and temporal understanding in multimodal LLMs. Our method uses a lightweight tracking model to find object correspondences between frames in a video or between sets of image viewpoints. It selects the most frequent object instances and visualizes them with markers with unique IDs in the image. With this simple approach, we achieve state-of-the-art results on 3D understanding benchmarks including ScanQA (+20.5\%) and a subset of OpenEQA (+9.7\%), and on long-form video benchmarks such as EgoSchema (+6.0\%). We also curate a small diagnostic dataset to evaluate whether MLLMs can reason about space from a described viewpoint other than the camera viewpoint. Again, Coarse Correspondence improves spatial perspective-taking abilities but we highlight that MLLMs struggle with this task. Together, we demonstrate that our simple prompting method can significantly aid downstream tasks that require 3D or temporal reasoning.

Summary

AI-Generated Summary

PDF252November 28, 2024