X2SAM: Cualquier Segmentación en Imágenes y Videos

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han demostrado una sólida comprensión y razonamiento visual a nivel de imagen, pero su percepción a nivel de píxel tanto en imágenes como en vídeos sigue siendo limitada. Los modelos de segmentación base, como la serie SAM, producen máscaras de alta calidad, pero dependen de indicaciones visuales de bajo nivel y no pueden interpretar de forma nativa instrucciones conversacionales complejas. Los MLLMs de segmentación existentes reducen esta brecha, pero suelen estar especializados en imágenes o en vídeos y rara vez admiten indicaciones tanto textuales como visuales en una única interfaz. Presentamos X2SAM, un MLLM de segmentación unificado que extiende las capacidades de segmentación arbitraria de imágenes a vídeos. Dadas instrucciones conversacionales e indicaciones visuales, X2SAM acopla un LLM con un módulo de Memoria de Máscaras que almacena características visuales guiadas para la generación de máscaras de vídeo temporalmente consistentes. La misma formulación admite segmentación genérica, de vocabulario abierto, de referencia, de razonamiento, de conversación fundamentada, interactiva y visualmente fundamentada en entradas de imagen y vídeo. Además, presentamos el benchmark de segmentación Video Visual Grounded (V-VGD), que evalúa si un modelo puede segmentar trayectorias de objetos en vídeos a partir de indicaciones visuales interactivas. Mediante una estrategia de entrenamiento conjunto unificado sobre conjuntos de datos heterogéneos de imágenes y vídeos, X2SAM ofrece un alto rendimiento en segmentación de vídeo, se mantiene competitivo en benchmarks de segmentación de imágenes y preserva la capacidad general de chat sobre imágenes y vídeos.

English

Multimodal Large Language Models (MLLMs) have demonstrated strong image-level visual understanding and reasoning, yet their pixel-level perception across both images and videos remains limited. Foundation segmentation models such as the SAM series produce high-quality masks, but they rely on low-level visual prompts and cannot natively interpret complex conversational instructions. Existing segmentation MLLMs narrow this gap, but are usually specialized for either images or videos and rarely support both textual and visual prompts in one interface. We introduce X2SAM, a unified segmentation MLLM that extends any-segmentation capabilities from images to videos. Given conversational instructions and visual prompts, X2SAM couples an LLM with a Mask Memory module that stores guided vision features for temporally consistent video mask generation. The same formulation supports generic, open-vocabulary, referring, reasoning, grounded conversation generation, interactive, and visual grounded segmentation across image and video inputs. We further introduce the Video Visual Grounded (V-VGD) segmentation benchmark, which evaluates whether a model can segment object tracks in videos from interactive visual prompts. With a unified joint training strategy over heterogeneous image and video datasets, X2SAM delivers strong video segmentation performance, remains competitive on image segmentation benchmarks, and preserves general image and video chat ability.

X2SAM: Cualquier Segmentación en Imágenes y Videos

X2SAM: Any Segmentation in Images and Videos

Resumen

Support