InstructSAM : Segmenter toute instance avec n'importe quelle instruction

Résumé

Dans cet article, nous présentons InstructSAM, un cadre unifié et rationalisé conçu pour la segmentation multi-instances sous instructions arbitraires. Nous formulons la segmentation d'instances guidée par instructions comme un problème de prédiction de requêtes structurées en ensembles et proposons une interface explicite de raisonnement-à-requête-instance qui relie élégamment un modèle vision-langage (VLM) et SAM3. Plus précisément, un ensemble de requêtes d'instances apprenables est injecté dans le VLM et contextualisé avec des instructions et des informations visuelles, permettant à chaque requête de servir de fente spécifique à une instance. Un mécanisme d'attention hybride favorise en outre l'interaction entre ces requêtes, les tokens visuels et les tokens d'instructions, améliorant le dénombrement des instances et réduisant les prédictions en double. Les requêtes conditionnées par le LLM qui en résultent sont projetées dans l'espace des requêtes du détecteur de SAM3 pour produire une segmentation multi-instances précise en un seul passage avant. Cette conception dote SAM3 d'une compréhension d'instructions de haut niveau, d'un raisonnement compositionnel et d'une prédiction d'instances par ensembles sans modifier son architecture principale. Pour soutenir l'entraînement et l'évaluation, nous construisons en outre Inst2Seg, un ensemble de données et un benchmark de segmentation d'instances basée sur des instructions, à grande échelle et de haute qualité, qui associe des instructions libres à des masques d'instances. Des expériences approfondies mont que seul InstructSAM à l'échelle 2B atteint des résultats solides sur des benchmarks complexes de segmentation guidée par instructions et de référencement au niveau des phrases, surpassant les méthodes de bout en bout antérieures et le pipeline agentique de SAM3 tout en permettant une prédiction multi-instances efficace en un seul passage.

English

In this paper, we introduce InstructSAM, a unified and streamlined framework designed for multi-instance segmentation under arbitrary instructions. We formulates instruction-driven instance segmentation as a set-structured query prediction problem and propose an explicit reasoning-to-instance query interface that elegantly bridges a vision-language model (VLM) and SAM3. Specifically, a bank of learnable instance queries is injected into the VLM and contextualized with instruction and visual information, enabling each query to serve as an instance-aware slot. A hybrid-attention mechanism further promotes interaction among these queries, visual tokens, and instruction tokens, improving instance enumeration and reducing duplicate predictions. The resulting LLM-conditioned queries are projected into SAM3's detector query space to drive accurate multi-instance segmentation in a single forward pass. This design equips SAM3 with high-level instruction understanding, compositional reasoning, and instance-level set prediction without modifying its core architecture. To support training and evaluation, we further construct Inst2Seg, a high-quality and large-scale instruction-based instance segmentation dataset and benchmark that couples free-form instructions with instance-level masks. Extensive experiments show that only 2B-scale InstructSAM achieves strong results across complex instruction-driven and phrase-level referring segmentation benchmarks, outperforming prior end-to-end methods and SAM3's agentic pipeline while enabling efficient single-pass multi-instance prediction.