InstructSAM: Segmentar Cualquier Instancia con Cualquier Instrucción

Resumen

En este artículo, presentamos InstructSAM, un marco unificado y simplificado diseñado para la segmentación multi-instancia bajo instrucciones arbitrarias. Formulamos la segmentación de instancias guiada por instrucciones como un problema de predicción de consultas estructuradas en conjuntos y proponemos una interfaz explícita de razonamiento a consulta de instancia que conecta elegantemente un modelo de visión-lenguaje (VLM) y SAM3. Específicamente, se inyecta un banco de consultas de instancia aprendibles en el VLM, contextualizadas con información de instrucción y visual, permitiendo que cada consulta funcione como un espacio de instancia. Un mecanismo de atención híbrida promueve además la interacción entre estas consultas, los tokens visuales y los tokens de instrucción, mejorando la enumeración de instancias y reduciendo predicciones duplicadas. Las consultas condicionadas por el LLM resultantes se proyectan en el espacio de consultas del detector de SAM3 para impulsar una segmentación multi-instancia precisa en una sola pasada hacia adelante. Este diseño dota a SAM3 de comprensión de instrucciones de alto nivel, razonamiento composicional y predicción de conjuntos a nivel de instancia sin modificar su arquitectura central. Para respaldar el entrenamiento y la evaluación, construimos además Inst2Seg, un conjunto de datos y punto de referencia de segmentación de instancias basada en instrucciones de alta calidad y a gran escala que vincula instrucciones en lenguaje natural con máscaras a nivel de instancia. Experimentos exhaustivos muestran que InstructSAM, con solo 2B de parámetros, logra resultados sólidos en puntos de referencia complejos de segmentación referencial tanto guiada por instrucciones como a nivel de frase, superando a métodos anteriores de extremo a extremo y al pipeline agentivo de SAM3, al tiempo que permite una predicción multi-instancia eficiente en una sola pasada.

English

In this paper, we introduce InstructSAM, a unified and streamlined framework designed for multi-instance segmentation under arbitrary instructions. We formulates instruction-driven instance segmentation as a set-structured query prediction problem and propose an explicit reasoning-to-instance query interface that elegantly bridges a vision-language model (VLM) and SAM3. Specifically, a bank of learnable instance queries is injected into the VLM and contextualized with instruction and visual information, enabling each query to serve as an instance-aware slot. A hybrid-attention mechanism further promotes interaction among these queries, visual tokens, and instruction tokens, improving instance enumeration and reducing duplicate predictions. The resulting LLM-conditioned queries are projected into SAM3's detector query space to drive accurate multi-instance segmentation in a single forward pass. This design equips SAM3 with high-level instruction understanding, compositional reasoning, and instance-level set prediction without modifying its core architecture. To support training and evaluation, we further construct Inst2Seg, a high-quality and large-scale instruction-based instance segmentation dataset and benchmark that couples free-form instructions with instance-level masks. Extensive experiments show that only 2B-scale InstructSAM achieves strong results across complex instruction-driven and phrase-level referring segmentation benchmarks, outperforming prior end-to-end methods and SAM3's agentic pipeline while enabling efficient single-pass multi-instance prediction.