3AM: 幾何学的整合性を考慮した動画のSegment Anything
3AM: Segment Anything with Geometric Consistency in Videos
January 13, 2026
著者: Yang-Che Sun, Cheng Sun, Chin-Yang Lin, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
cs.AI
要旨
SAM2のようなビデオ物体セセンテーション手法は、メモリベースのアーキテクチャにより高い性能を達成するが、外観特徴への依存性から大きな視点変化に弱いという課題がある。従来の3Dインスタンスセグメンテーション手法は視点一貫性を扱えるが、カメラポーズや深度マップ、高コストな前処理を必要とする。本研究では、MUSt3Rから得られる3D認識特徴をSAM2に統合する学習時拡張手法3AMを提案する。軽量なFeature Mergerが暗黙的な幾何学的対応を符号化するマルチレベルMUSt3R特徴を融合し、SAM2の外観特徴と組み合わせることで、空間位置と視覚的類似性の両方に基づく幾何学的一貫性のある認識を実現する。信頼性の高い3D対応学習のため、空間的に一貫した物体領域を観測するフレームを選択する視野角考慮サンプリング戦略を提案する。重要な点として、推論時にはRGB入力のみを必要とし、カメラポーズや前処理が不要である。広基線運動を含む困難なデータセット(ScanNet++、Replica)において、3AMはSAM2およびその拡張手法を大幅に上回り、ScanNet++のSelected Subsetで90.6% IoU、71.7% Positive IoUを達成、最先端VOS手法よりそれぞれ+15.9ポイント、+30.4ポイントの改善を示した。プロジェクトページ: https://jayisaking.github.io/3AM-Page/
English
Video object segmentation methods like SAM2 achieve strong performance through memory-based architectures but struggle under large viewpoint changes due to reliance on appearance features. Traditional 3D instance segmentation methods address viewpoint consistency but require camera poses, depth maps, and expensive preprocessing. We introduce 3AM, a training-time enhancement that integrates 3D-aware features from MUSt3R into SAM2. Our lightweight Feature Merger fuses multi-level MUSt3R features that encode implicit geometric correspondence. Combined with SAM2's appearance features, the model achieves geometry-consistent recognition grounded in both spatial position and visual similarity. We propose a field-of-view aware sampling strategy ensuring frames observe spatially consistent object regions for reliable 3D correspondence learning. Critically, our method requires only RGB input at inference, with no camera poses or preprocessing. On challenging datasets with wide-baseline motion (ScanNet++, Replica), 3AM substantially outperforms SAM2 and extensions, achieving 90.6% IoU and 71.7% Positive IoU on ScanNet++'s Selected Subset, improving over state-of-the-art VOS methods by +15.9 and +30.4 points. Project page: https://jayisaking.github.io/3AM-Page/