X2SAM: Любая сегментация в изображениях и видео

Аннотация

Мультимодальные большие языковые модели (MБЯМ) продемонстрировали высокий уровень визуального понимания и логического вывода на уровне изображений, однако их восприятие на пиксельном уровне как для изображений, так и для видео остается ограниченным. Фундаментальные модели сегментации, такие как серия SAM, создают высококачественные маски, но они полагаются на низкоуровневые визуальные подсказки и не способны изначально интерпретировать сложные диалоговые инструкции. Существующие MБЯМ для сегментации сокращают этот разрыв, но обычно специализированы либо для изображений, либо для видео и редко поддерживают как текстовые, так и визуальные подсказки в едином интерфейсе. Мы представляем X2SAM — унифицированную MБЯМ для сегментации, которая расширяет возможности any-сегментации с изображений на видео. Получая диалоговые инструкции и визуальные подсказки, X2SAM объединяет БЯМ с модулем Mask Memory, который сохраняет направляющие визуальные признаки для временно-согласованного генерации масок в видео. Та же формулировка поддерживает универсальную, открытую, референциальную, логическую, обоснованную диалоговую генерацию, интерактивную и визуально обоснованную сегментацию для входных данных как изображений, так и видео. Мы также представляем бенчмарк Video Visual Grounded (V-VGD) сегментации, который оценивает способность модели сегментировать треки объектов в видео на основе интерактивных визуальных подсказок. Благодаря унифицированной стратегии совместного обучения на разнородных наборах данных изображений и видео, X2SAM демонстрирует высокую производительность в видеосегментации, остается конкурентоспособным на бенчмарках сегментации изображений и сохраняет общие возможности чата для изображений и видео.

English

Multimodal Large Language Models (MLLMs) have demonstrated strong image-level visual understanding and reasoning, yet their pixel-level perception across both images and videos remains limited. Foundation segmentation models such as the SAM series produce high-quality masks, but they rely on low-level visual prompts and cannot natively interpret complex conversational instructions. Existing segmentation MLLMs narrow this gap, but are usually specialized for either images or videos and rarely support both textual and visual prompts in one interface. We introduce X2SAM, a unified segmentation MLLM that extends any-segmentation capabilities from images to videos. Given conversational instructions and visual prompts, X2SAM couples an LLM with a Mask Memory module that stores guided vision features for temporally consistent video mask generation. The same formulation supports generic, open-vocabulary, referring, reasoning, grounded conversation generation, interactive, and visual grounded segmentation across image and video inputs. We further introduce the Video Visual Grounded (V-VGD) segmentation benchmark, which evaluates whether a model can segment object tracks in videos from interactive visual prompts. With a unified joint training strategy over heterogeneous image and video datasets, X2SAM delivers strong video segmentation performance, remains competitive on image segmentation benchmarks, and preserves general image and video chat ability.

X2SAM: Любая сегментация в изображениях и видео

X2SAM: Any Segmentation in Images and Videos

Аннотация

Support