InstructPart: Сегментация частей объектов с ориентацией на задачи и логикой инструкций
InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning
May 23, 2025
Авторы: Zifu Wan, Yaqi Xie, Ce Zhang, Zhiqiu Lin, Zihan Wang, Simon Stepputtis, Deva Ramanan, Katia Sycara
cs.AI
Аннотация
Крупные мультимодальные базовые модели, особенно в областях обработки языка и компьютерного зрения, значительно продвинули решение различных задач, включая робототехнику, автономное вождение, информационный поиск и закрепление знаний. Однако многие из этих моделей воспринимают объекты как неделимые, упуская из виду составляющие их компоненты. Понимание этих компонентов и связанных с ними возможностей предоставляет ценные инсайты о функциональности объекта, что является основополагающим для выполнения широкого спектра задач. В данной работе мы представляем новый эталонный набор данных для реального мира, InstructPart, включающий ручную разметку сегментации частей объектов и инструкции, ориентированные на задачи, для оценки производительности современных моделей в понимании и выполнении задач на уровне частей в повседневных контекстах. В ходе наших экспериментов мы демонстрируем, что сегментация частей, ориентированная на задачи, остается сложной проблемой даже для современных моделей, объединяющих зрение и язык (Vision-Language Models, VLMs). В дополнение к нашему эталонному набору данных мы представляем простую базовую модель, которая достигает двукратного улучшения производительности за счет тонкой настройки на нашем наборе данных. С помощью нашего набора данных и эталонного теста мы стремимся способствовать исследованиям в области сегментации частей, ориентированной на задачи, и повысить применимость VLMs в различных областях, включая робототехнику, виртуальную реальность, информационный поиск и другие смежные направления. Сайт проекта: https://zifuwan.github.io/InstructPart/.
English
Large multimodal foundation models, particularly in the domains of language
and vision, have significantly advanced various tasks, including robotics,
autonomous driving, information retrieval, and grounding. However, many of
these models perceive objects as indivisible, overlooking the components that
constitute them. Understanding these components and their associated
affordances provides valuable insights into an object's functionality, which is
fundamental for performing a wide range of tasks. In this work, we introduce a
novel real-world benchmark, InstructPart, comprising hand-labeled part
segmentation annotations and task-oriented instructions to evaluate the
performance of current models in understanding and executing part-level tasks
within everyday contexts. Through our experiments, we demonstrate that
task-oriented part segmentation remains a challenging problem, even for
state-of-the-art Vision-Language Models (VLMs). In addition to our benchmark,
we introduce a simple baseline that achieves a twofold performance improvement
through fine-tuning with our dataset. With our dataset and benchmark, we aim to
facilitate research on task-oriented part segmentation and enhance the
applicability of VLMs across various domains, including robotics, virtual
reality, information retrieval, and other related fields. Project website:
https://zifuwan.github.io/InstructPart/.Summary
AI-Generated Summary