InstructPart: Segmentação Orientada a Tarefas com Raciocínio por Instruções
InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning
May 23, 2025
Autores: Zifu Wan, Yaqi Xie, Ce Zhang, Zhiqiu Lin, Zihan Wang, Simon Stepputtis, Deva Ramanan, Katia Sycara
cs.AI
Resumo
Grandes modelos de fundação multimodal, particularmente nos domínios de linguagem e visão, avançaram significativamente várias tarefas, incluindo robótica, direção autônoma, recuperação de informações e fundamentação. No entanto, muitos desses modelos percebem os objetos como indivisíveis, ignorando os componentes que os constituem. Compreender esses componentes e suas affordances associadas fornece insights valiosos sobre a funcionalidade de um objeto, o que é fundamental para a execução de uma ampla gama de tarefas. Neste trabalho, introduzimos um novo benchmark do mundo real, o InstructPart, composto por anotações de segmentação de partes rotuladas manualmente e instruções orientadas a tarefas para avaliar o desempenho dos modelos atuais na compreensão e execução de tarefas em nível de parte dentro de contextos cotidianos. Por meio de nossos experimentos, demonstramos que a segmentação de partes orientada a tarefas continua sendo um problema desafiador, mesmo para os mais avançados Modelos de Visão e Linguagem (VLMs). Além do nosso benchmark, introduzimos uma linha de base simples que alcança uma melhoria de desempenho em dobro por meio de ajuste fino com nosso conjunto de dados. Com nosso conjunto de dados e benchmark, visamos facilitar a pesquisa sobre segmentação de partes orientada a tarefas e aprimorar a aplicabilidade dos VLMs em vários domínios, incluindo robótica, realidade virtual, recuperação de informações e outros campos relacionados. Site do projeto: https://zifuwan.github.io/InstructPart/.
English
Large multimodal foundation models, particularly in the domains of language
and vision, have significantly advanced various tasks, including robotics,
autonomous driving, information retrieval, and grounding. However, many of
these models perceive objects as indivisible, overlooking the components that
constitute them. Understanding these components and their associated
affordances provides valuable insights into an object's functionality, which is
fundamental for performing a wide range of tasks. In this work, we introduce a
novel real-world benchmark, InstructPart, comprising hand-labeled part
segmentation annotations and task-oriented instructions to evaluate the
performance of current models in understanding and executing part-level tasks
within everyday contexts. Through our experiments, we demonstrate that
task-oriented part segmentation remains a challenging problem, even for
state-of-the-art Vision-Language Models (VLMs). In addition to our benchmark,
we introduce a simple baseline that achieves a twofold performance improvement
through fine-tuning with our dataset. With our dataset and benchmark, we aim to
facilitate research on task-oriented part segmentation and enhance the
applicability of VLMs across various domains, including robotics, virtual
reality, information retrieval, and other related fields. Project website:
https://zifuwan.github.io/InstructPart/.