InstructPart: Taakgerichte Partsegmentatie met Instructie-Reductie
InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning
May 23, 2025
Auteurs: Zifu Wan, Yaqi Xie, Ce Zhang, Zhiqiu Lin, Zihan Wang, Simon Stepputtis, Deva Ramanan, Katia Sycara
cs.AI
Samenvatting
Grote multimodale basis modellen, met name op het gebied van taal en visie, hebben aanzienlijke vooruitgang geboekt bij diverse taken, waaronder robotica, autonoom rijden, informatie retrieval en grounding. Veel van deze modellen zien objecten echter als ondeelbaar en negeren de componenten waaruit ze bestaan. Het begrijpen van deze componenten en hun bijbehorende affordances biedt waardevolle inzichten in de functionaliteit van een object, wat fundamenteel is voor het uitvoeren van een breed scala aan taken. In dit werk introduceren we een nieuwe real-world benchmark, InstructPart, bestaande uit handmatig gelabelde part segmentatie annotaties en taakgerichte instructies om de prestaties van huidige modellen te evalueren bij het begrijpen en uitvoeren van part-level taken in alledaagse contexten. Uit onze experimenten blijkt dat taakgerichte part segmentatie een uitdagend probleem blijft, zelfs voor state-of-the-art Vision-Language Models (VLMs). Naast onze benchmark introduceren we een eenvoudige baseline die een tweevoudige prestatieverbetering bereikt door fine-tuning met onze dataset. Met onze dataset en benchmark willen we onderzoek naar taakgerichte part segmentatie faciliteren en de toepasbaarheid van VLMs in verschillende domeinen verbeteren, waaronder robotica, virtual reality, informatie retrieval en andere gerelateerde velden. Projectwebsite: https://zifuwan.github.io/InstructPart/.
English
Large multimodal foundation models, particularly in the domains of language
and vision, have significantly advanced various tasks, including robotics,
autonomous driving, information retrieval, and grounding. However, many of
these models perceive objects as indivisible, overlooking the components that
constitute them. Understanding these components and their associated
affordances provides valuable insights into an object's functionality, which is
fundamental for performing a wide range of tasks. In this work, we introduce a
novel real-world benchmark, InstructPart, comprising hand-labeled part
segmentation annotations and task-oriented instructions to evaluate the
performance of current models in understanding and executing part-level tasks
within everyday contexts. Through our experiments, we demonstrate that
task-oriented part segmentation remains a challenging problem, even for
state-of-the-art Vision-Language Models (VLMs). In addition to our benchmark,
we introduce a simple baseline that achieves a twofold performance improvement
through fine-tuning with our dataset. With our dataset and benchmark, we aim to
facilitate research on task-oriented part segmentation and enhance the
applicability of VLMs across various domains, including robotics, virtual
reality, information retrieval, and other related fields. Project website:
https://zifuwan.github.io/InstructPart/.