ChatPaper.aiChatPaper

3AM: Segment Anything mit geometrischer Konsistenz in Videos

3AM: Segment Anything with Geometric Consistency in Videos

January 13, 2026
papers.authors: Yang-Che Sun, Cheng Sun, Chin-Yang Lin, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
cs.AI

papers.abstract

Video-Objeksegmentierungsmethoden wie SAM2 erzielen durch speicherbasierte Architekturen hohe Leistung, haben jedoch bei großen Blickwinkeländerungen Schwierigkeiten aufgrund ihrer Abhängigkeit von Erscheinungsmerkmalen. Traditionelle 3D-Instanzsegmentierungsmethoden adressieren Blickwinkelkonsistenz, erfordern aber Kameraposen, Tiefenkarten und aufwändige Vorverarbeitung. Wir stellen 3AM vor, eine Trainingszeit-Erweiterung, die 3D-wahrnehmbare Merkmale von MUSt3R in SAM2 integriert. Unser leichtgewichtiger Feature-Merger fusioniert mehrstufige MUSt3R-Merkmale, die implizite geometrische Korrespondenz kodieren. In Kombination mit SAM2s Erscheinungsmerkmalen erreicht das Modell eine geometriekonsistente Erkennung, die auf räumlicher Position und visueller Ähnlichkeit basiert. Wir schlagen eine sichtfeldbewusste Abtaststrategie vor, die sicherstellt, dass Bilder räumlich konsistente Objektregionen erfassen, um zuverlässiges 3D-Korrespondenzlernen zu ermöglichen. Entscheidend ist, dass unsere Methode zur Inferenzzeit nur RGB-Eingaben benötigt, ohne Kameraposen oder Vorverarbeitung. Auf anspruchsvollen Datensätzen mit großer Basislinienbewegung (ScanNet++, Replica) übertrifft 3AM SAM2 und Erweiterungen deutlich und erreicht 90,6 % IoU und 71,7 % Positive IoU auf ScanNet++s ausgewähltem Subset, was einer Verbesserung gegenüber state-of-the-art VOS-Methoden um +15,9 bzw. +30,4 Punkte entspricht. Projektseite: https://jayisaking.github.io/3AM-Page/
English
Video object segmentation methods like SAM2 achieve strong performance through memory-based architectures but struggle under large viewpoint changes due to reliance on appearance features. Traditional 3D instance segmentation methods address viewpoint consistency but require camera poses, depth maps, and expensive preprocessing. We introduce 3AM, a training-time enhancement that integrates 3D-aware features from MUSt3R into SAM2. Our lightweight Feature Merger fuses multi-level MUSt3R features that encode implicit geometric correspondence. Combined with SAM2's appearance features, the model achieves geometry-consistent recognition grounded in both spatial position and visual similarity. We propose a field-of-view aware sampling strategy ensuring frames observe spatially consistent object regions for reliable 3D correspondence learning. Critically, our method requires only RGB input at inference, with no camera poses or preprocessing. On challenging datasets with wide-baseline motion (ScanNet++, Replica), 3AM substantially outperforms SAM2 and extensions, achieving 90.6% IoU and 71.7% Positive IoU on ScanNet++'s Selected Subset, improving over state-of-the-art VOS methods by +15.9 and +30.4 points. Project page: https://jayisaking.github.io/3AM-Page/
PDF211January 15, 2026