Banc en kit : Évaluation de la compréhension spatio-temporelle dans les grands modèles vision-langage via l'assemblage de meubles

Résumé

L'émergence des Grands Modèles Vision-Langage (LVLMs) a considérablement amélioré les capacités de compréhension vidéo. Cependant, les benchmarks existants se concentrent principalement sur des tâches à granularité grossière telles que la segmentation d'actions, la classification, le sous-titrage et le récupération. De plus, ces références s'appuient souvent sur des entités facilement identifiables verbalement, comme les objets ménagers, les animaux, les sujets humains, etc., ce qui limite leur applicabilité à des scénarios vidéo complexes en conditions réelles. Or, de nombreuses applications telles que l'assemblage de meubles, la cuisine, etc., nécessitent une compréhension spatio-temporelle fine et étape par étape de la vidéo, ce qui n'est pas suffisamment évalué dans les benchmarks actuels. Pour combler cette lacune, nous présentons Flat-Pack Bench, un nouveau benchmark centré sur les tâches d'assemblage de meubles. Notre benchmark évalue les LVLMs sur des tâches nuancées, notamment l'ordonnancement temporel des actions d'assemblage, la localisation temporelle des états d'assemblage, la compréhension de l'emboîtement des pièces et le suivi, à l'aide de questions à choix multiples associées à des indices visuels mettant en évidence les parties pertinentes comme références pour des questions fines. Nos expériences révèlent que les LVLMs de pointe peinent considérablement avec le raisonnement spatio-temporel fin, soulignant leurs limites dans l'exploitation efficace des informations temporelles issues des vidéos, une capacité de suivi restreinte, et une compréhension insuffisante des interactions spatiales comme le contact physique.

English

The emergence of Large Vision-Language Models (LVLMs) has significantly advanced video understanding capabilities. However, existing benchmarks focus predominantly on coarse-grained tasks such as action segmentation, classification, captioning, and retrieval. Furthermore, these benchmarks often rely on entities that can be easily identified verbally, like household objects, animals, human subjects, etc., limiting their applicability to complex, in-the-wild video scenarios. But, many applications such as furniture assembly, cooking, etc., require step-by-step fine-grained spatio-temporal understanding of the video, which is not sufficiently evaluated in current benchmarks. To address this gap, we introduce Flat-Pack Bench, a novel benchmark centered on furniture assembly tasks. Our benchmark evaluates LVLMs on nuanced tasks, including temporal ordering of assembly actions, temporal localization of assembly state, understanding part mating, and tracking, using multiple-choice questions paired with visual prompts highlighting relevant parts as references for fine-grained questions. Our experiments reveal that state-of-the-art LVLMs struggle significantly with fine-grained spatio-temporal reasoning, highlighting their limitations in effectively leveraging temporal information from videos, limited tracking ability, and understanding of spatial interactions like physical contact.