3AM : Segmentation de tout objet avec cohérence géométrique dans les vidéos
3AM: Segment Anything with Geometric Consistency in Videos
January 13, 2026
papers.authors: Yang-Che Sun, Cheng Sun, Chin-Yang Lin, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
cs.AI
papers.abstract
Les méthodes de segmentation d'objets vidéo comme SAM2 atteignent des performances élevées grâce à des architectures à mémoire, mais peinent face à d'importants changements de point de vue en raison de leur dépendance aux caractéristiques d'apparence. Les méthodes traditionnelles de segmentation 3D par instance garantissent la cohérence du point de vue, mais nécessitent des poses de caméra, des cartes de profondeur et un prétraitement coûteux. Nous présentons 3AM, une amélioration lors de l'entraînement qui intègre des caractéristiques 3D de MUSt3R dans SAM2. Notre module de fusion de caractéristiques léger combine les caractéristiques multi-niveaux de MUSt3R qui encodent des correspondances géométriques implicites. Combinées aux caractéristiques d'apparence de SAM2, le modèle réalise une reconnaissance géométriquement cohérente fondée à la fois sur la position spatiale et la similarité visuelle. Nous proposons une stratégie d'échantillonnage sensible au champ de vision garantissant que les images observent des régions d'objets spatialement cohérentes pour un apprentissage fiable des correspondances 3D. Fait crucial, notre méthode ne nécessite que des entrées RVB lors de l'inférence, sans poses de caméra ni prétraitement. Sur des ensembles de données complexes avec un mouvement à large base (ScanNet++, Replica), 3AM surpasse substantiellement SAM2 et ses extensions, atteignant 90,6 % d'IoU et 71,7 % d'IoU positif sur le sous-ensemble sélectionné de ScanNet++, améliorant les méthodes de segmentation vidéo d'état de l'art de +15,9 et +30,4 points. Page du projet : https://jayisaking.github.io/3AM-Page/
English
Video object segmentation methods like SAM2 achieve strong performance through memory-based architectures but struggle under large viewpoint changes due to reliance on appearance features. Traditional 3D instance segmentation methods address viewpoint consistency but require camera poses, depth maps, and expensive preprocessing. We introduce 3AM, a training-time enhancement that integrates 3D-aware features from MUSt3R into SAM2. Our lightweight Feature Merger fuses multi-level MUSt3R features that encode implicit geometric correspondence. Combined with SAM2's appearance features, the model achieves geometry-consistent recognition grounded in both spatial position and visual similarity. We propose a field-of-view aware sampling strategy ensuring frames observe spatially consistent object regions for reliable 3D correspondence learning. Critically, our method requires only RGB input at inference, with no camera poses or preprocessing. On challenging datasets with wide-baseline motion (ScanNet++, Replica), 3AM substantially outperforms SAM2 and extensions, achieving 90.6% IoU and 71.7% Positive IoU on ScanNet++'s Selected Subset, improving over state-of-the-art VOS methods by +15.9 and +30.4 points. Project page: https://jayisaking.github.io/3AM-Page/