InstructPart: Segmentación Orientada a Tareas con Razonamiento de Instrucciones
InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning
May 23, 2025
Autores: Zifu Wan, Yaqi Xie, Ce Zhang, Zhiqiu Lin, Zihan Wang, Simon Stepputtis, Deva Ramanan, Katia Sycara
cs.AI
Resumen
Los grandes modelos fundacionales multimodales, particularmente en los dominios del lenguaje y la visión, han avanzado significativamente en diversas tareas, incluyendo robótica, conducción autónoma, recuperación de información y fundamentación. Sin embargo, muchos de estos modelos perciben los objetos como indivisibles, pasando por alto los componentes que los constituyen. Comprender estos componentes y sus posibilidades asociadas proporciona valiosos insights sobre la funcionalidad de un objeto, lo cual es fundamental para realizar una amplia gama de tareas. En este trabajo, presentamos un nuevo benchmark del mundo real, InstructPart, que comprende anotaciones de segmentación de partes etiquetadas manualmente e instrucciones orientadas a tareas para evaluar el rendimiento de los modelos actuales en la comprensión y ejecución de tareas a nivel de partes en contextos cotidianos. A través de nuestros experimentos, demostramos que la segmentación de partes orientada a tareas sigue siendo un problema desafiante, incluso para los modelos de visión y lenguaje (VLMs) más avanzados. Además de nuestro benchmark, introducimos una línea base simple que logra una mejora de rendimiento de dos veces mediante el ajuste fino con nuestro conjunto de datos. Con nuestro conjunto de datos y benchmark, buscamos facilitar la investigación sobre la segmentación de partes orientada a tareas y mejorar la aplicabilidad de los VLMs en diversos dominios, incluyendo robótica, realidad virtual, recuperación de información y otros campos relacionados. Sitio web del proyecto: https://zifuwan.github.io/InstructPart/.
English
Large multimodal foundation models, particularly in the domains of language
and vision, have significantly advanced various tasks, including robotics,
autonomous driving, information retrieval, and grounding. However, many of
these models perceive objects as indivisible, overlooking the components that
constitute them. Understanding these components and their associated
affordances provides valuable insights into an object's functionality, which is
fundamental for performing a wide range of tasks. In this work, we introduce a
novel real-world benchmark, InstructPart, comprising hand-labeled part
segmentation annotations and task-oriented instructions to evaluate the
performance of current models in understanding and executing part-level tasks
within everyday contexts. Through our experiments, we demonstrate that
task-oriented part segmentation remains a challenging problem, even for
state-of-the-art Vision-Language Models (VLMs). In addition to our benchmark,
we introduce a simple baseline that achieves a twofold performance improvement
through fine-tuning with our dataset. With our dataset and benchmark, we aim to
facilitate research on task-oriented part segmentation and enhance the
applicability of VLMs across various domains, including robotics, virtual
reality, information retrieval, and other related fields. Project website:
https://zifuwan.github.io/InstructPart/.Summary
AI-Generated Summary