Platpakbank: Evaluatie van Spatio-Temporeel Begrip in Grote Visie-Taalmodelen via Meubelassemblage

Samenvatting

De opkomst van grootschalige visie-taalsystemen (Large Vision-Language Models, LVLMs) heeft de mogelijkheden voor videobegrip aanzienlijk verbeterd. Echter richten bestaande benchmarks zich voornamelijk op grofkorrelige taken zoals actiesegmentatie, classificatie, ondertiteling en terugvinden. Bovendien vertrouwen deze benchmarks vaak op entiteiten die gemakkelijk verbaal kunnen worden geïdentificeerd, zoals huishoudelijke voorwerpen, dieren, menselijke onderwerpen, enz., wat hun toepasbaarheid op complexe, in-the-wild videoscenario's beperkt. Maar veel toepassingen, zoals meubelmontage, koken, enz., vereisen een stapsgewijs fijnkorrelig spatiotemporeel begrip van de video, wat in huidige benchmarks niet voldoende wordt geëvalueerd. Om deze leemte aan te pakken, introduceren wij Flat-Pack Bench, een nieuwe benchmark die zich richt op meubelmontagetaken. Onze benchmark evalueert LVLMs op genuanceerde taken, waaronder temporele ordening van montagehandelingen, temporele lokalisatie van montagestatus, begrip van onderdelenpassing en tracking, met behulp van meerkeuzevragen die worden gekoppeld aan visuele aanwijzingen die relevante onderdelen accentueren als referentie voor fijnkorrelige vragen. Onze experimenten tonen aan dat state-of-the-art LVLMs aanzienlijk worstelen met fijnkorrelige spatiotemporele redenering, wat hun beperkingen benadrukt in het effectief benutten van temporele informatie uit video's, beperkte trackingvaardigheden en begrip van ruimtelijke interacties zoals fysiek contact.

English

The emergence of Large Vision-Language Models (LVLMs) has significantly advanced video understanding capabilities. However, existing benchmarks focus predominantly on coarse-grained tasks such as action segmentation, classification, captioning, and retrieval. Furthermore, these benchmarks often rely on entities that can be easily identified verbally, like household objects, animals, human subjects, etc., limiting their applicability to complex, in-the-wild video scenarios. But, many applications such as furniture assembly, cooking, etc., require step-by-step fine-grained spatio-temporal understanding of the video, which is not sufficiently evaluated in current benchmarks. To address this gap, we introduce Flat-Pack Bench, a novel benchmark centered on furniture assembly tasks. Our benchmark evaluates LVLMs on nuanced tasks, including temporal ordering of assembly actions, temporal localization of assembly state, understanding part mating, and tracking, using multiple-choice questions paired with visual prompts highlighting relevant parts as references for fine-grained questions. Our experiments reveal that state-of-the-art LVLMs struggle significantly with fine-grained spatio-temporal reasoning, highlighting their limitations in effectively leveraging temporal information from videos, limited tracking ability, and understanding of spatial interactions like physical contact.