Banco de pruebas de muebles en paquete plano: evaluación de la comprensión espacio-temporal en grandes modelos de visión-lenguaje mediante el ensamblaje de muebles

Resumen

La aparición de los Modelos Grandes de Visión-Lenguaje (LVLMs) ha avanzado significativamente las capacidades de comprensión de videos. Sin embargo, los benchmarks existentes se centran predominantemente en tareas de grano grueso, como la segmentación de acciones, clasificación, generación de descripciones y recuperación. Además, estos benchmarks suelen basarse en entidades que pueden identificarse verbalmente con facilidad, como objetos domésticos, animales, sujetos humanos, etc., lo que limita su aplicabilidad a escenarios de video complejos y no controlados. No obstante, muchas aplicaciones, como el ensamblaje de muebles, la cocina, etc., requieren una comprensión espacio-temporal detallada paso a paso del video, la cual no se evalúa suficientemente en los benchmarks actuales. Para abordar esta brecha, presentamos Flat-Pack Bench, un novedoso benchmark centrado en tareas de ensamblaje de muebles. Nuestro benchmark evalúa a los LVLMs en tareas detalladas, incluyendo el orden temporal de las acciones de ensamblaje, la localización temporal del estado del ensamblaje, la comprensión del acoplamiento de piezas y el seguimiento, utilizando preguntas de opción múltiple acompañadas de indicaciones visuales que resaltan las partes relevantes como referencia para preguntas de grano fino. Nuestros experimentos revelan que los LVLMs de última generación tienen dificultades significativas con el razonamiento espacio-temporal detallado, lo que pone de manifiesto sus limitaciones para aprovechar eficazmente la información temporal de los videos, su capacidad limitada de seguimiento y su comprensión de interacciones espaciales como el contacto físico.

English

The emergence of Large Vision-Language Models (LVLMs) has significantly advanced video understanding capabilities. However, existing benchmarks focus predominantly on coarse-grained tasks such as action segmentation, classification, captioning, and retrieval. Furthermore, these benchmarks often rely on entities that can be easily identified verbally, like household objects, animals, human subjects, etc., limiting their applicability to complex, in-the-wild video scenarios. But, many applications such as furniture assembly, cooking, etc., require step-by-step fine-grained spatio-temporal understanding of the video, which is not sufficiently evaluated in current benchmarks. To address this gap, we introduce Flat-Pack Bench, a novel benchmark centered on furniture assembly tasks. Our benchmark evaluates LVLMs on nuanced tasks, including temporal ordering of assembly actions, temporal localization of assembly state, understanding part mating, and tracking, using multiple-choice questions paired with visual prompts highlighting relevant parts as references for fine-grained questions. Our experiments reveal that state-of-the-art LVLMs struggle significantly with fine-grained spatio-temporal reasoning, highlighting their limitations in effectively leveraging temporal information from videos, limited tracking ability, and understanding of spatial interactions like physical contact.