X2SAM : Segmentation arbitraire dans les images et les vidéos

Résumé

Les modèles de langage multimodaux (MLLM) ont démontré une forte capacité de compréhension et de raisonnement visuel au niveau de l'image, mais leur perception au niveau pixel pour les images et les vidéos reste limitée. Les modèles de segmentation fondamentaux comme la série SAM produisent des masques de haute qualité, mais ils reposent sur des invites visuelles de bas niveau et ne peuvent pas interpréter nativement des instructions conversationnelles complexes. Les MLLM de segmentation existants réduisent cet écart, mais sont généralement spécialisés pour les images ou les vidéos et prennent rarement en charge à la fois les invites textuelles et visuelles dans une seule interface. Nous présentons X2SAM, un MLLM de segmentation unifié qui étend les capacités de segmentation universelle des images aux vidéos. Étant donné des instructions conversationnelles et des invites visuelles, X2SAM couple un LLM avec un module de Mémoire de Masques qui stocke des caractéristiques visuelles guidées pour une génération de masques vidéo temporellement cohérente. La même formulation prend en charge la segmentation générique, à vocabulaire ouvert, par référence, par raisonnement, par conversation ancrée, interactive et visuellement ancrée, sur des entrées images et vidéos. Nous introduisons également le benchmark de segmentation vidéo visuellement ancrée (V-VGD), qui évalue si un modèle peut segmenter des trajectoires d'objets dans des vidéos à partir d'invites visuelles interactives. Grâce à une stratégie d'apprentissage unifiée conjointe sur des ensembles de données d'images et de vidéos hétérogènes, X2SAM offre de solides performances en segmentation vidéo, reste compétitif sur les benchmarks de segmentation d'images et préserve une capacité générale de dialogue sur images et vidéos.

English

Multimodal Large Language Models (MLLMs) have demonstrated strong image-level visual understanding and reasoning, yet their pixel-level perception across both images and videos remains limited. Foundation segmentation models such as the SAM series produce high-quality masks, but they rely on low-level visual prompts and cannot natively interpret complex conversational instructions. Existing segmentation MLLMs narrow this gap, but are usually specialized for either images or videos and rarely support both textual and visual prompts in one interface. We introduce X2SAM, a unified segmentation MLLM that extends any-segmentation capabilities from images to videos. Given conversational instructions and visual prompts, X2SAM couples an LLM with a Mask Memory module that stores guided vision features for temporally consistent video mask generation. The same formulation supports generic, open-vocabulary, referring, reasoning, grounded conversation generation, interactive, and visual grounded segmentation across image and video inputs. We further introduce the Video Visual Grounded (V-VGD) segmentation benchmark, which evaluates whether a model can segment object tracks in videos from interactive visual prompts. With a unified joint training strategy over heterogeneous image and video datasets, X2SAM delivers strong video segmentation performance, remains competitive on image segmentation benchmarks, and preserves general image and video chat ability.

X2SAM : Segmentation arbitraire dans les images et les vidéos

X2SAM: Any Segmentation in Images and Videos

Résumé

Support