Flat-Pack Bench: оценка пространственно-временного понимания в больших визуально-языковых моделях с помощью сборки мебели

Аннотация

Появление крупных моделей зрения и языка (Large Vision-Language Models, LVLMs) значительно продвинуло возможности понимания видео. Однако существующие бенчмарки преимущественно ориентированы на задачи общего уровня, такие как сегментация действий, классификация, формирование подписей и поиск. Кроме того, эти тесты зачастую опираются на сущности, которые легко идентифицировать вербально (например, бытовые предметы, животные, люди и т.д.), что ограничивает их применимость в сложных видео-сценариях реального мира. Между тем, многие приложения, такие как сборка мебели, приготовление пищи и т.п., требуют пошагового детализированного пространственно-временного понимания видео, которое недостаточно оценивается в современных бенчмарках. Для восполнения этого пробела мы представляем Flat-Pack Bench — новый бенчмарк, ориентированный на задачи сборки мебели. Наш тест оценивает LVLMs по нюансированным задачам, включая временное упорядочивание действий по сборке, временную локализацию состояния сборки, понимание соединения деталей и их отслеживание, с использованием вопросов с множественным выбором, сопровождаемых визуальными подсказками, выделяющими соответствующие части в качестве референса для детализированных вопросов. Наши эксперименты показывают, что современные LVLMs испытывают значительные трудности с детализированным пространственно-временным рассуждением, что подчёркивает их ограничения в эффективном использовании временной информации из видео, ограниченные способности к отслеживанию и пониманию пространственных взаимодействий, таких как физический контакт.

English

The emergence of Large Vision-Language Models (LVLMs) has significantly advanced video understanding capabilities. However, existing benchmarks focus predominantly on coarse-grained tasks such as action segmentation, classification, captioning, and retrieval. Furthermore, these benchmarks often rely on entities that can be easily identified verbally, like household objects, animals, human subjects, etc., limiting their applicability to complex, in-the-wild video scenarios. But, many applications such as furniture assembly, cooking, etc., require step-by-step fine-grained spatio-temporal understanding of the video, which is not sufficiently evaluated in current benchmarks. To address this gap, we introduce Flat-Pack Bench, a novel benchmark centered on furniture assembly tasks. Our benchmark evaluates LVLMs on nuanced tasks, including temporal ordering of assembly actions, temporal localization of assembly state, understanding part mating, and tracking, using multiple-choice questions paired with visual prompts highlighting relevant parts as references for fine-grained questions. Our experiments reveal that state-of-the-art LVLMs struggle significantly with fine-grained spatio-temporal reasoning, highlighting their limitations in effectively leveraging temporal information from videos, limited tracking ability, and understanding of spatial interactions like physical contact.