ChatPaper.aiChatPaper

X2SAM: 이미지 및 동영상의 모든 세분화

X2SAM: Any Segmentation in Images and Videos

April 27, 2026
저자: Hao Wang, Limeng Qiao, Chi Zhang, Lin Ma, Guanglu Wan, Xiangyuan Lan, Xiaodan Liang
cs.AI

초록

멀티모달 대규모 언어 모델(MLLM)은 이미지 수준의 시각적 이해 및 추론 능력이 뛰어나지만, 이미지와 비디오 모두에서 픽셀 수준의 인식 능력은 여전히 제한적입니다. SAM 시리즈와 같은 파운데이션 분할 모델은 높은 품질의 마스크를 생성하지만, 저수준 시각적 프롬프트에 의존하며 복잡한 대화형 지시를 본래적으로 해석할 수 없습니다. 기존 분할 MLLM은 이 격차를 줄이지만, 일반적으로 이미지 또는 비디오 중 하나에 특화되어 있으며 하나의 인터페이스에서 텍스트와 시각 프롬프트를 모두 지원하는 경우는 드뭅니다. 우리는 임의 분할 기능을 이미지에서 비디오로 확장하는 통합 분할 MLLM인 X2SAM을 소개합니다. 대화형 지시와 시각적 프롬프트가 주어지면 X2SAM은 LLM과 가이드된 시각 특징을 저장하여 시간적 일관성을 가진 비디오 마스크 생성을 가능하게 하는 Mask Memory 모듈을 결합합니다. 동일한 구성으로 이미지 및 비디오 입력에 걸쳐 일반, 오픈 보커블러리, 참조, 추론, 기반 대화 생성, 인터랙티브, 시각 기반 분할을 지원합니다. 우리는 또한 모델이 인터랙티브 시각 프롬프트로부터 비디오 내 객체 트랙을 분할할 수 있는지 평가하는 Video Visual Grounded(V-VGD) 분할 벤치마크를 추가로 소개합니다. 이기종 이미지 및 비디오 데이터셋에 대한 통합 공동 학습 전략을 통해 X2SAM은 강력한 비디오 분할 성능을 제공하며, 이미지 분할 벤치마크에서도 경쟁력을 유지하고 일반적인 이미지 및 비디오 채팅 능력을 보존합니다.
English
Multimodal Large Language Models (MLLMs) have demonstrated strong image-level visual understanding and reasoning, yet their pixel-level perception across both images and videos remains limited. Foundation segmentation models such as the SAM series produce high-quality masks, but they rely on low-level visual prompts and cannot natively interpret complex conversational instructions. Existing segmentation MLLMs narrow this gap, but are usually specialized for either images or videos and rarely support both textual and visual prompts in one interface. We introduce X2SAM, a unified segmentation MLLM that extends any-segmentation capabilities from images to videos. Given conversational instructions and visual prompts, X2SAM couples an LLM with a Mask Memory module that stores guided vision features for temporally consistent video mask generation. The same formulation supports generic, open-vocabulary, referring, reasoning, grounded conversation generation, interactive, and visual grounded segmentation across image and video inputs. We further introduce the Video Visual Grounded (V-VGD) segmentation benchmark, which evaluates whether a model can segment object tracks in videos from interactive visual prompts. With a unified joint training strategy over heterogeneous image and video datasets, X2SAM delivers strong video segmentation performance, remains competitive on image segmentation benchmarks, and preserves general image and video chat ability.
PDF163May 7, 2026