X2SAM: Beliebige Segmentierung in Bildern und Videos

Zusammenfassung

Multimodale Large Language Models (MLLMs) haben ein starkes visuelles Verständnis und Reasoning auf Bildebene unter Beweis gestellt, doch ihre Wahrnehmung auf Pixelebene sowohl bei Bildern als auch bei Videos bleibt begrenzt. Foundation-Segmentierungsmodelle wie die SAM-Serie erzeugen hochwertige Masken, basieren jedoch auf Low-Level-Visual-Prompts und können komplexe konversationelle Anweisungen nicht nativ interpretieren. Bestehende Segmentierungs-MLLMs verringern diese Lücke, sind jedoch meist entweder auf Bilder oder Videos spezialisiert und unterstützen selten sowohl textuelle als auch visuelle Prompts in einer einzigen Schnittstelle. Wir stellen X2SAM vor, ein einheitliches Segmentierungs-MLLM, das Any-Segmentation-Fähigkeiten von Bildern auf Videos erweitert. Auf Grundlage konversationeller Anweisungen und visueller Prompts koppelt X2SAM ein LLM mit einem Mask-Memory-Modul, das geführte Vision-Features zur zeitlich konsistenten Videomaskengenerierung speichert. Dieselbe Formulierung unterstützt generische, open-vocabulary, referring, reasoning, grounded conversation generation, interaktive und visuell verankerte Segmentierung über Bild- und Videoeingaben hinweg. Wir führen außerdem den Video Visual Grounded (V-VGD) Segmentierungs-Benchmark ein, der evaluiert, ob ein Model Objekt-Tracks in Videos aus interaktiven visuellen Prompts segmentieren kann. Mit einer einheitlichen Joint-Training-Strategie für heterogene Bild- und Videodatensätze erzielt X2SAM eine hohe Videosegmentierungsleistung, bleibt in Segmentierungs-Benchmarks für Bilder wettbewerbsfähig und bewahrt die allgemeine Fähigkeit zum Bild- und Video-Chat.

English

Multimodal Large Language Models (MLLMs) have demonstrated strong image-level visual understanding and reasoning, yet their pixel-level perception across both images and videos remains limited. Foundation segmentation models such as the SAM series produce high-quality masks, but they rely on low-level visual prompts and cannot natively interpret complex conversational instructions. Existing segmentation MLLMs narrow this gap, but are usually specialized for either images or videos and rarely support both textual and visual prompts in one interface. We introduce X2SAM, a unified segmentation MLLM that extends any-segmentation capabilities from images to videos. Given conversational instructions and visual prompts, X2SAM couples an LLM with a Mask Memory module that stores guided vision features for temporally consistent video mask generation. The same formulation supports generic, open-vocabulary, referring, reasoning, grounded conversation generation, interactive, and visual grounded segmentation across image and video inputs. We further introduce the Video Visual Grounded (V-VGD) segmentation benchmark, which evaluates whether a model can segment object tracks in videos from interactive visual prompts. With a unified joint training strategy over heterogeneous image and video datasets, X2SAM delivers strong video segmentation performance, remains competitive on image segmentation benchmarks, and preserves general image and video chat ability.

X2SAM: Beliebige Segmentierung in Bildern und Videos

X2SAM: Any Segmentation in Images and Videos

Zusammenfassung

Support