InstructSAM: Segmentieren beliebiger Instanzen mit beliebigen Anweisungen

Zusammenfassung

In dieser Arbeit stellen wir InstructSAM vor, ein einheitliches und optimiertes Framework für die Multi-Instanz-Segmentierung unter beliebigen Instruktionen. Wir formulieren die instruktionsgesteuerte Instanzsegmentierung als ein set-strukturiertes Anfragevorhersageproblem und schlagen eine explizite Reasoning-zu-Instanz-Abfrageschnittstelle vor, die elegant ein Vision-Language-Modell (VLM) und SAM3 verbindet. Insbesondere wird eine Reihe lernbarer Instanzabfragen in das VLM injiziert und mit Instruktionen sowie visuellen Informationen kontextualisiert, sodass jede Abfrage als instanzbewusster Slot fungiert. Ein Hybrid-Aufmerksamkeitsmechanismus fördert zudem die Interaktion zwischen diesen Abfragen, visuellen Token und Instruktionstoken, verbessert die Instanzenaufzählung und reduziert doppelte Vorhersagen. Die resultierenden LLM-konditionierten Abfragen werden in den Detektor-Abfragenraum von SAM3 projiziert, um in einem einzigen Vorwärtsdurchlauf eine genaue Multi-Instanz-Segmentierung zu ermöglichen. Dieses Design stattet SAM3 mit hochwertigem Instruktionsverständnis, kompositionellem Denken und Instanz-Level-Set-Vorhersagen aus, ohne seine Kernarchitektur zu verändern. Zur Unterstützung von Training und Evaluation konstruieren wir außerdem Inst2Seg, einen qualitativ hochwertigen und groß angelegten instrukionsbasierten Instanzsegmentierungsdatensatz und -benchmark, der freiformulierte Instruktionen mit Instanz-Level-Masken kombiniert. Umfangreiche Experimente zeigen, dass selbst das 2B-skalierte InstructSAM starke Ergebnisse auf komplexen instruktionsgesteuerten sowie phrasenbasierten Referenzsegmentierungsbenchmarks erzielt. Es übertrifft frühere End-to-End-Methoden und die agentische Pipeline von SAM3 und ermöglicht gleichzeitig eine effiziente Single-Pass-Multi-Instanz-Vorhersage.

English

In this paper, we introduce InstructSAM, a unified and streamlined framework designed for multi-instance segmentation under arbitrary instructions. We formulates instruction-driven instance segmentation as a set-structured query prediction problem and propose an explicit reasoning-to-instance query interface that elegantly bridges a vision-language model (VLM) and SAM3. Specifically, a bank of learnable instance queries is injected into the VLM and contextualized with instruction and visual information, enabling each query to serve as an instance-aware slot. A hybrid-attention mechanism further promotes interaction among these queries, visual tokens, and instruction tokens, improving instance enumeration and reducing duplicate predictions. The resulting LLM-conditioned queries are projected into SAM3's detector query space to drive accurate multi-instance segmentation in a single forward pass. This design equips SAM3 with high-level instruction understanding, compositional reasoning, and instance-level set prediction without modifying its core architecture. To support training and evaluation, we further construct Inst2Seg, a high-quality and large-scale instruction-based instance segmentation dataset and benchmark that couples free-form instructions with instance-level masks. Extensive experiments show that only 2B-scale InstructSAM achieves strong results across complex instruction-driven and phrase-level referring segmentation benchmarks, outperforming prior end-to-end methods and SAM3's agentic pipeline while enabling efficient single-pass multi-instance prediction.