InstructSAM: сегментация любого экземпляра по любым инструкциям

Аннотация

В этой статье мы представляем InstructSAM — унифицированную и оптимизированную структуру, предназначенную для многоэкземплярной сегментации по произвольным инструкциям. Мы формулируем сегментацию экземпляров, управляемую инструкциями, как задачу предсказания запросов в виде структурированного множества и предлагаем явный интерфейс запросов от рассуждения к экземпляру, который элегантно связывает визуально-языковую модель (VLM) и SAM3. В частности, набор обучаемых запросов экземпляров встраивается в VLM и контекстуализируется с помощью инструкций и визуальной информации, что позволяет каждому запросу служить слотом, осведомленным об экземпляре. Механизм гибридного внимания дополнительно способствует взаимодействию между этими запросами, визуальными токенами и токенами инструкций, улучшая перечисление экземпляров и сокращая дублирующиеся предсказания. Полученные запросы, обусловленные LLM, проецируются в пространство запросов детектора SAM3, обеспечивая точную многоэкземплярную сегментацию за один прямой проход. Такая конструкция наделяет SAM3 пониманием инструкций высокого уровня, композиционным рассуждением и предсказанием множества на уровне экземпляров без изменения его базовой архитектуры. Для поддержки обучения и оценки мы дополнительно создали Inst2Seg — высококачественный и крупномасштабный набор данных и бенчмарк для сегментации экземпляров на основе инструкций, объединяющий инструкции в свободной форме с масками экземпляров. Обширные эксперименты показывают, что даже InstructSAM масштаба 2B достигает сильных результатов в сложных задачах сегментации по произвольным инструкциям и референсной сегментации на уровне фраз, превосходя предыдущие сквозные методы и агентный конвейер SAM3, одновременно обеспечивая эффективное предсказание множественных экземпляров за один проход.

English

In this paper, we introduce InstructSAM, a unified and streamlined framework designed for multi-instance segmentation under arbitrary instructions. We formulates instruction-driven instance segmentation as a set-structured query prediction problem and propose an explicit reasoning-to-instance query interface that elegantly bridges a vision-language model (VLM) and SAM3. Specifically, a bank of learnable instance queries is injected into the VLM and contextualized with instruction and visual information, enabling each query to serve as an instance-aware slot. A hybrid-attention mechanism further promotes interaction among these queries, visual tokens, and instruction tokens, improving instance enumeration and reducing duplicate predictions. The resulting LLM-conditioned queries are projected into SAM3's detector query space to drive accurate multi-instance segmentation in a single forward pass. This design equips SAM3 with high-level instruction understanding, compositional reasoning, and instance-level set prediction without modifying its core architecture. To support training and evaluation, we further construct Inst2Seg, a high-quality and large-scale instruction-based instance segmentation dataset and benchmark that couples free-form instructions with instance-level masks. Extensive experiments show that only 2B-scale InstructSAM achieves strong results across complex instruction-driven and phrase-level referring segmentation benchmarks, outperforming prior end-to-end methods and SAM3's agentic pipeline while enabling efficient single-pass multi-instance prediction.