3AM: Segmenteren van Alles met Geometrische Consistentie in Video's

Samenvatting

Video-objectsegmentatiemethoden zoals SAM2 bereiken sterke prestaties via op geheugen gebaseerde architecturen, maar hebben moeite met grote viewpointveranderingen door hun afhankelijkheid van uiterlijkheidskenmerken. Traditionele 3D-instantiesegmentatiemethoden waarborgen viewpointconsistentie, maar vereisen cameraposes, dieptekaarten en dure preprocessing. Wij introduceren 3AM, een trainingstijdverbetering die 3D-bewuste kenmerken van MUSt3R integreert in SAM2. Onze lichtgewicht Feature Merger fuseert multi-level MUSt3R-kenmerken die impliciete geometrische correspondentie coderen. Gecombineerd met SAM2's uiterlijkheidskenmerken bereikt het model geometrie-consistente herkenning gebaseerd op zowel ruimtelijke positie als visuele gelijkenis. Wij stellen een gezichtsveldbewuste bemonsteringsstrategie voor die zorgt dat frames ruimtelijk consistente objectregio's observeren voor betrouwbaar 3D-correspondentieleren. Cruciaal is dat onze methode tijdens inferentie alleen RGB-input vereist, zonder cameraposes of preprocessing. Op uitdagende datasets met wide-baseline beweging (ScanNet++, Replica) presteert 3AM aanzienlijk beter dan SAM2 en extensies, met 90,6% IoU en 71,7% Positive IoU op ScanNet++'s Selected Subset, een verbetering van +15,9 en +30,4 punten ten opzichte van state-of-the-art VOS-methoden. Projectpagina: https://jayisaking.github.io/3AM-Page/

English

Video object segmentation methods like SAM2 achieve strong performance through memory-based architectures but struggle under large viewpoint changes due to reliance on appearance features. Traditional 3D instance segmentation methods address viewpoint consistency but require camera poses, depth maps, and expensive preprocessing. We introduce 3AM, a training-time enhancement that integrates 3D-aware features from MUSt3R into SAM2. Our lightweight Feature Merger fuses multi-level MUSt3R features that encode implicit geometric correspondence. Combined with SAM2's appearance features, the model achieves geometry-consistent recognition grounded in both spatial position and visual similarity. We propose a field-of-view aware sampling strategy ensuring frames observe spatially consistent object regions for reliable 3D correspondence learning. Critically, our method requires only RGB input at inference, with no camera poses or preprocessing. On challenging datasets with wide-baseline motion (ScanNet++, Replica), 3AM substantially outperforms SAM2 and extensions, achieving 90.6% IoU and 71.7% Positive IoU on ScanNet++'s Selected Subset, improving over state-of-the-art VOS methods by +15.9 and +30.4 points. Project page: https://jayisaking.github.io/3AM-Page/

3AM: Segmenteren van Alles met Geometrische Consistentie in Video's

3AM: Segment Anything with Geometric Consistency in Videos

Samenvatting

Support