InstructPart: Aufgabenorientierte Teilesegmentierung mit Instruktionslogik
InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning
May 23, 2025
Autoren: Zifu Wan, Yaqi Xie, Ce Zhang, Zhiqiu Lin, Zihan Wang, Simon Stepputtis, Deva Ramanan, Katia Sycara
cs.AI
Zusammenfassung
Große multimodale Basismodelle, insbesondere in den Bereichen Sprache und Vision, haben verschiedene Aufgaben wie Robotik, autonomes Fahren, Informationsbeschaffung und Verankerung erheblich vorangetrieben. Viele dieser Modelle betrachten Objekte jedoch als unteilbar und übersehen dabei die Komponenten, aus denen sie bestehen. Das Verständnis dieser Komponenten und ihrer zugehörigen Affordanzen liefert wertvolle Einblicke in die Funktionalität eines Objekts, was grundlegend für die Ausführung einer Vielzahl von Aufgaben ist. In dieser Arbeit stellen wir einen neuartigen Benchmark für die reale Welt vor, InstructPart, der handbeschriftete Segmentierungsannotationen von Teilen und aufgabenorientierte Anweisungen enthält, um die Leistung aktueller Modelle beim Verstehen und Ausführen von Aufgaben auf Teilebene in alltäglichen Kontexten zu bewerten. Durch unsere Experimente zeigen wir, dass die aufgabenorientierte Teilesegmentierung auch für state-of-the-art Vision-Language-Modelle (VLMs) eine herausfordernde Aufgabe bleibt. Neben unserem Benchmark stellen wir eine einfache Baseline vor, die durch Feinabstimmung mit unserem Datensatz eine zweifache Leistungssteigerung erzielt. Mit unserem Datensatz und Benchmark möchten wir die Forschung zur aufgabenorientierten Teilesegmentierung fördern und die Anwendbarkeit von VLMs in verschiedenen Bereichen wie Robotik, virtueller Realität, Informationsbeschaffung und anderen verwandten Feldern verbessern. Projektwebsite: https://zifuwan.github.io/InstructPart/.
English
Large multimodal foundation models, particularly in the domains of language
and vision, have significantly advanced various tasks, including robotics,
autonomous driving, information retrieval, and grounding. However, many of
these models perceive objects as indivisible, overlooking the components that
constitute them. Understanding these components and their associated
affordances provides valuable insights into an object's functionality, which is
fundamental for performing a wide range of tasks. In this work, we introduce a
novel real-world benchmark, InstructPart, comprising hand-labeled part
segmentation annotations and task-oriented instructions to evaluate the
performance of current models in understanding and executing part-level tasks
within everyday contexts. Through our experiments, we demonstrate that
task-oriented part segmentation remains a challenging problem, even for
state-of-the-art Vision-Language Models (VLMs). In addition to our benchmark,
we introduce a simple baseline that achieves a twofold performance improvement
through fine-tuning with our dataset. With our dataset and benchmark, we aim to
facilitate research on task-oriented part segmentation and enhance the
applicability of VLMs across various domains, including robotics, virtual
reality, information retrieval, and other related fields. Project website:
https://zifuwan.github.io/InstructPart/.Summary
AI-Generated Summary