InstructSAM: Segmentar Qualquer Instância com Quaisquer Instruções

Resumo

Neste artigo, introduzimos o InstructSAM, uma estrutura unificada e simplificada projetada para segmentação multi-instância sob instruções arbitrárias. Formulamos a segmentação de instância orientada por instrução como um problema de previsão de consultas estruturadas em conjunto e propomos uma interface explícita de raciocínio para consulta de instância que conecta elegantemente um modelo de visão-linguagem (VLM) e o SAM3. Especificamente, um banco de consultas de instância aprendíveis é injetado no VLM e contextualizado com informações de instrução e visuais, permitindo que cada consulta atue como um slot ciente da instância. Um mecanismo de atenção híbrida promove ainda mais a interação entre essas consultas, tokens visuais e tokens de instrução, melhorando a enumeração de instâncias e reduzindo previsões duplicadas. As consultas resultantes condicionadas pelo LLM são projetadas no espaço de consultas do detector do SAM3 para gerar segmentação multi-instância precisa em uma única passagem direta. Esse design equipa o SAM3 com compreensão de instruções de alto nível, raciocínio composicional e previsão de conjuntos em nível de instância sem modificar sua arquitetura central. Para apoiar o treinamento e a avaliação, construímos ainda o Inst2Seg, um conjunto de dados e referência de segmentação de instância baseada em instruções de alta qualidade e grande escala, que combina instruções de formato livre com máscaras em nível de instância. Experimentos extensivos mostram que o InstructSAM, com apenas 2B de parâmetros, alcança resultados robustos em benchmarks complexos de segmentação referencial orientada por instrução e em nível de frase, superando métodos anteriores de ponta a ponta e o pipeline de agente do SAM3, ao mesmo tempo que possibilita previsão multi-instância eficiente em passagem única.

English

In this paper, we introduce InstructSAM, a unified and streamlined framework designed for multi-instance segmentation under arbitrary instructions. We formulates instruction-driven instance segmentation as a set-structured query prediction problem and propose an explicit reasoning-to-instance query interface that elegantly bridges a vision-language model (VLM) and SAM3. Specifically, a bank of learnable instance queries is injected into the VLM and contextualized with instruction and visual information, enabling each query to serve as an instance-aware slot. A hybrid-attention mechanism further promotes interaction among these queries, visual tokens, and instruction tokens, improving instance enumeration and reducing duplicate predictions. The resulting LLM-conditioned queries are projected into SAM3's detector query space to drive accurate multi-instance segmentation in a single forward pass. This design equips SAM3 with high-level instruction understanding, compositional reasoning, and instance-level set prediction without modifying its core architecture. To support training and evaluation, we further construct Inst2Seg, a high-quality and large-scale instruction-based instance segmentation dataset and benchmark that couples free-form instructions with instance-level masks. Extensive experiments show that only 2B-scale InstructSAM achieves strong results across complex instruction-driven and phrase-level referring segmentation benchmarks, outperforming prior end-to-end methods and SAM3's agentic pipeline while enabling efficient single-pass multi-instance prediction.