3AM: Segmentare Oggetti con Coerenza Geometrica nei Video

Abstract

I metodi di segmentazione di oggetti video come SAM2 raggiungono prestazioni elevate attraverso architetture basate su memoria, ma incontrano difficoltà in presenza di ampi cambiamenti di punto di vista a causa della dipendenza da caratteristiche di aspetto. I metodi tradizionali di segmentazione di istanze 3D affrontano la coerenza del punto di vista, ma richiedono pose della camera, mappe di profondità e costose pre-elaborazioni. Presentiamo 3AM, un potenziamento applicabile durante l'addestramento che integra le feature 3D-aware di MUSt3R in SAM2. Il nostro leggero Feature Merger fonde feature multi-livello di MUSt3R che codificano corrispondenze geometriche implicite. Combinato con le feature di aspetto di SAM2, il modello raggiunge un riconoscimento geometricamente coerente basato sia sulla posizione spaziale che sulla similarità visiva. Proponiamo una strategia di campionamento consapevole del campo visivo che garantisce che i frame osservino regioni oggetto spazialmente coerenti per un apprendimento affidabile delle corrispondenze 3D. Fondamentalmente, il nostro metodo richiede solo input RGB in inferenza, senza pose della camera o pre-elaborazione. Su dataset complessi con moto a larga base (ScanNet++, Replica), 3AM supera sostanzialmente SAM2 e le sue estensioni, raggiungendo il 90.6% di IoU e il 71.7% di Positive IoU sul Selected Subset di ScanNet++, migliorando i metodi VOS allo stato dell'arte di +15.9 e +30.4 punti. Pagina del progetto: https://jayisaking.github.io/3AM-Page/

English

Video object segmentation methods like SAM2 achieve strong performance through memory-based architectures but struggle under large viewpoint changes due to reliance on appearance features. Traditional 3D instance segmentation methods address viewpoint consistency but require camera poses, depth maps, and expensive preprocessing. We introduce 3AM, a training-time enhancement that integrates 3D-aware features from MUSt3R into SAM2. Our lightweight Feature Merger fuses multi-level MUSt3R features that encode implicit geometric correspondence. Combined with SAM2's appearance features, the model achieves geometry-consistent recognition grounded in both spatial position and visual similarity. We propose a field-of-view aware sampling strategy ensuring frames observe spatially consistent object regions for reliable 3D correspondence learning. Critically, our method requires only RGB input at inference, with no camera poses or preprocessing. On challenging datasets with wide-baseline motion (ScanNet++, Replica), 3AM substantially outperforms SAM2 and extensions, achieving 90.6% IoU and 71.7% Positive IoU on ScanNet++'s Selected Subset, improving over state-of-the-art VOS methods by +15.9 and +30.4 points. Project page: https://jayisaking.github.io/3AM-Page/

3AM: Segmentare Oggetti con Coerenza Geometrica nei Video

3AM: Segment Anything with Geometric Consistency in Videos

Abstract

Support