Flat-Pack-Bench: Evaluierung des raumzeitlichen Verständnisses in großen Vision-Language-Modellen durch Möbelmontage

Zusammenfassung

Die Entstehung von Großen Vision-Sprachmodellen (GVSM) hat die Fähigkeiten zur Videoverständnis erheblich vorangetrieben. Allerdings konzentrieren sich bestehende Benchmarks überwiegend auf grobkörnige Aufgaben wie Aktionssegmentierung, Klassifikation, Bildunterschriftenerstellung und Abruf. Darüber hinaus basieren diese Benchmarks oft auf Entitäten, die sich leicht verbal identifizieren lassen, wie Haushaltsgegenstände, Tiere, menschliche Subjekte usw., was ihre Anwendbarkeit auf komplexe, unkontrollierte Videoszenarien einschränkt. Viele Anwendungen wie Möbelmontage, Kochen usw. erfordern jedoch ein schrittweises, feinkörniges räumlich-zeitliches Verständnis des Videos, das in aktuellen Benchmarks nicht ausreichend bewertet wird. Um diese Lücke zu schließen, führen wir Flat-Pack Bench ein, einen neuartigen Benchmark, der sich auf Möbelmontageaufgaben konzentriert. Unser Benchmark bewertet GVSM hinsichtlich nuancierter Aufgaben, einschließlich der zeitlichen Reihenfolge von Montageaktionen, zeitlicher Lokalisierung des Montagezustands, Verständnis der Teilezusammenführung und Verfolgung, unter Verwendung von Multiple-Choice-Fragen, die mit visuellen Hinweisen gepaart sind, die relevante Teile als Referenz für feinkörnige Fragen hervorheben. Unsere Experimente zeigen, dass hochmoderne GVSM erheblich mit feinkörnigem räumlich-zeitlichem Denken kämpfen, was ihre Einschränkungen bei der effektiven Nutzung zeitlicher Informationen aus Videos, begrenzten Verfolgungsfähigkeiten und dem Verständnis räumlicher Interaktionen wie physischem Kontakt hervorhebt.

English

The emergence of Large Vision-Language Models (LVLMs) has significantly advanced video understanding capabilities. However, existing benchmarks focus predominantly on coarse-grained tasks such as action segmentation, classification, captioning, and retrieval. Furthermore, these benchmarks often rely on entities that can be easily identified verbally, like household objects, animals, human subjects, etc., limiting their applicability to complex, in-the-wild video scenarios. But, many applications such as furniture assembly, cooking, etc., require step-by-step fine-grained spatio-temporal understanding of the video, which is not sufficiently evaluated in current benchmarks. To address this gap, we introduce Flat-Pack Bench, a novel benchmark centered on furniture assembly tasks. Our benchmark evaluates LVLMs on nuanced tasks, including temporal ordering of assembly actions, temporal localization of assembly state, understanding part mating, and tracking, using multiple-choice questions paired with visual prompts highlighting relevant parts as references for fine-grained questions. Our experiments reveal that state-of-the-art LVLMs struggle significantly with fine-grained spatio-temporal reasoning, highlighting their limitations in effectively leveraging temporal information from videos, limited tracking ability, and understanding of spatial interactions like physical contact.