ChatPaper.aiChatPaper

3AM: 기하학적 일관성을 활용한 비디오 분할

3AM: Segment Anything with Geometric Consistency in Videos

January 13, 2026
저자: Yang-Che Sun, Cheng Sun, Chin-Yang Lin, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
cs.AI

초록

SAM2와 같은 비디오 객체 분할 방법은 메모리 기반 아키텍처를 통해 강력한 성능을 달성하지만, 외형 특징에 의존하기 때문에 큰 시점 변화가 발생하는 상황에서는 어려움을 겪습니다. 기존의 3D 인스턴스 분할 방법은 시점 일관성을 해결하지만 카메라 포즈, 깊이 맵 및 고비용의 전처리가 필요합니다. 본 논문에서는 MUSt3R의 3D 인식 특징을 SAM2에 통합하는 학습 시간 향상 기법인 3AM을 소개합니다. 우리의 경량화된 특징 병합기(Feature Merger)는 암묵적인 기하학적 대응 관계를 인코딩하는 MUSt3R의 다중 수준 특징을 융합합니다. 이를 SAM2의 외형 특징과 결합함으로써 공간 위치와 시각적 유사성에 기반한 기하학적 일관성을 갖는 인식을 달성합니다. 또한, 신뢰할 수 있는 3D 대응 관계 학습을 위해 공간적으로 일관된 객체 영역을 관찰하는 프레임을 보장하는 시야각 인식 샘플링 전략을 제안합니다. 중요한 점은 우리의 방법은 추론 시 RGB 입력만 필요로 하며, 카메라 포즈나 전처리가 필요하지 않다는 것입니다. 광베이스라인 운동이 있는 어려운 데이터셋(ScanNet++, Replica)에서 3AM은 SAM2 및 그 확장 방법들을 크게 능가하며, ScanNet++의 선별된 부분 집합에서 90.6% IoU와 71.7% Positive IoU를 달성하여 최첨단 비디오 객체 분할 방법 대비 각각 +15.9점, +30.4점의 성능 향상을 보였습니다. 프로젝트 페이지: https://jayisaking.github.io/3AM-Page/
English
Video object segmentation methods like SAM2 achieve strong performance through memory-based architectures but struggle under large viewpoint changes due to reliance on appearance features. Traditional 3D instance segmentation methods address viewpoint consistency but require camera poses, depth maps, and expensive preprocessing. We introduce 3AM, a training-time enhancement that integrates 3D-aware features from MUSt3R into SAM2. Our lightweight Feature Merger fuses multi-level MUSt3R features that encode implicit geometric correspondence. Combined with SAM2's appearance features, the model achieves geometry-consistent recognition grounded in both spatial position and visual similarity. We propose a field-of-view aware sampling strategy ensuring frames observe spatially consistent object regions for reliable 3D correspondence learning. Critically, our method requires only RGB input at inference, with no camera poses or preprocessing. On challenging datasets with wide-baseline motion (ScanNet++, Replica), 3AM substantially outperforms SAM2 and extensions, achieving 90.6% IoU and 71.7% Positive IoU on ScanNet++'s Selected Subset, improving over state-of-the-art VOS methods by +15.9 and +30.4 points. Project page: https://jayisaking.github.io/3AM-Page/
PDF211January 15, 2026