Flat-Pack Bench: Avaliando a Compreensão Espaço-Temporal em Grandes Modelos de Visão e Linguagem por meio da Montagem de Móveis

Resumo

O surgimento dos Modelos de Visão-Linguagem de Grande Escala (LVLMs) avançou significativamente as capacidades de compreensão de vídeos. No entanto, os benchmarks existentes concentram-se predominantemente em tarefas de granularidade grossa, como segmentação de ações, classificação, legendagem e recuperação. Além disso, esses benchmarks frequentemente dependem de entidades que podem ser facilmente identificadas verbalmente, como objetos domésticos, animais, sujeitos humanos, etc., limitando sua aplicabilidade a cenários de vídeo complexos e do mundo real. Mas muitas aplicações, como montagem de móveis, culinária, etc., exigem uma compreensão espácio-temporal detalhada e passo a passo do vídeo, a qual não é suficientemente avaliada nos benchmarks atuais. Para preencher essa lacuna, apresentamos o Flat-Pack Bench, um novo benchmark centrado em tarefas de montagem de móveis. Nosso benchmark avalia os LVLMs em tarefas detalhadas, incluindo ordenação temporal de ações de montagem, localização temporal do estado da montagem, compreensão do encaixe de peças e rastreamento, utilizando perguntas de múltipla escolha pareadas com dicas visuais que destacam partes relevantes como referência para perguntas de granularidade fina. Nossos experimentos revelam que os LVLMs de última geração enfrentam dificuldades significativas com raciocínio espácio-temporal detalhado, destacando suas limitações em aproveitar eficazmente informações temporais de vídeos, capacidade de rastreamento limitada e compreensão de interações espaciais como contato físico.

English

The emergence of Large Vision-Language Models (LVLMs) has significantly advanced video understanding capabilities. However, existing benchmarks focus predominantly on coarse-grained tasks such as action segmentation, classification, captioning, and retrieval. Furthermore, these benchmarks often rely on entities that can be easily identified verbally, like household objects, animals, human subjects, etc., limiting their applicability to complex, in-the-wild video scenarios. But, many applications such as furniture assembly, cooking, etc., require step-by-step fine-grained spatio-temporal understanding of the video, which is not sufficiently evaluated in current benchmarks. To address this gap, we introduce Flat-Pack Bench, a novel benchmark centered on furniture assembly tasks. Our benchmark evaluates LVLMs on nuanced tasks, including temporal ordering of assembly actions, temporal localization of assembly state, understanding part mating, and tracking, using multiple-choice questions paired with visual prompts highlighting relevant parts as references for fine-grained questions. Our experiments reveal that state-of-the-art LVLMs struggle significantly with fine-grained spatio-temporal reasoning, highlighting their limitations in effectively leveraging temporal information from videos, limited tracking ability, and understanding of spatial interactions like physical contact.