X2SAM: Willekeurige Segmentatie in Afbeeldingen en Video's

Samenvatting

Multimodale Large Language Models (MLLM's) hebben een sterk visueel begrip en redeneervermogen op beeldniveau aangetoond, maar hun perceptie op pixelniveau voor zowel afbeeldingen als video's blijft beperkt. Foundation-segmentatiemodellen zoals de SAM-reeks produceren hoogwaardige maskers, maar zijn afhankelijk van visuele prompts op laag niveau en kunnen complexe conversatie-instructies niet intrinsiek interpreteren. Bestaande segmentatie-MLLM's verkleinen deze kloof, maar zijn meestal gespecialiseerd voor óf afbeeldingen óf video's en ondersteunen zelden zowel tekstuele als visuele prompts in één interface. Wij introduceren X2SAM, een verenigde segmentatie-MLLM die any-segmentation-mogelijkheden uitbreidt van afbeeldingen naar video's. Gegeven conversatie-instructies en visuele prompts, koppelt X2SAM een LLM aan een Maskergeheugenmodule die geleide visuele kenmerken opslaat voor temporeel consistente videomaskergeneratie. Dezelfde formulering ondersteunt generieke, open-vocabulary, referring, reasoning, grounded conversation generation, interactieve en visueel verankerde segmentatie voor zowel beeld- als video-invoer. Wij introduceren verder de Video Visual Grounded (V-VGD) segmentatiebenchmark, die evalueert of een model objecttracks in video's kan segmenteren op basis van interactieve visuele prompts. Met een verenigde gezamenlijke trainingsstrategie over heterogene beeld- en videodatasets levert X2SAM sterke videosegmentatieprestaties, blijft het concurrerend op beeldsegmentatiebenchmarks en behoudt het het algemene beeld- en video-chatvermogen.

English

Multimodal Large Language Models (MLLMs) have demonstrated strong image-level visual understanding and reasoning, yet their pixel-level perception across both images and videos remains limited. Foundation segmentation models such as the SAM series produce high-quality masks, but they rely on low-level visual prompts and cannot natively interpret complex conversational instructions. Existing segmentation MLLMs narrow this gap, but are usually specialized for either images or videos and rarely support both textual and visual prompts in one interface. We introduce X2SAM, a unified segmentation MLLM that extends any-segmentation capabilities from images to videos. Given conversational instructions and visual prompts, X2SAM couples an LLM with a Mask Memory module that stores guided vision features for temporally consistent video mask generation. The same formulation supports generic, open-vocabulary, referring, reasoning, grounded conversation generation, interactive, and visual grounded segmentation across image and video inputs. We further introduce the Video Visual Grounded (V-VGD) segmentation benchmark, which evaluates whether a model can segment object tracks in videos from interactive visual prompts. With a unified joint training strategy over heterogeneous image and video datasets, X2SAM delivers strong video segmentation performance, remains competitive on image segmentation benchmarks, and preserves general image and video chat ability.

X2SAM: Willekeurige Segmentatie in Afbeeldingen en Video's

X2SAM: Any Segmentation in Images and Videos

Samenvatting

Support