3AM: Segmentar Qualquer Coisa com Consistência Geométrica em Vídeos

Resumo

Métodos de segmentação de objetos em vídeo, como o SAM2, alcançam alto desempenho por meio de arquiteturas baseadas em memória, mas enfrentam dificuldades sob grandes mudanças de perspectiva devido à dependência de características de aparência. Métodos tradicionais de segmentação de instâncias 3D abordam a consistência de perspectiva, mas exigem poses de câmera, mapas de profundidade e pré-processamento dispendioso. Apresentamos o 3AM, um aprimoramento no tempo de treinamento que integra características 3D do MUSt3R no SAM2. Nosso Leve Fusionador de Características funde características multi-nível do MUSt3R que codificam correspondência geométrica implícita. Combinado com as características de aparência do SAM2, o modelo alcança reconhecimento geometricamente consistente baseado tanto na posição espacial quanto na similaridade visual. Propomos uma estratégia de amostragem consciente do campo de visão que garante que os quadros observem regiões de objetos espacialmente consistentes para um aprendizado confiável de correspondência 3D. Criticalmente, nosso método requer apenas entrada RGB na inferência, sem poses de câmera ou pré-processamento. Em conjuntos de dados desafiadores com movimento de linha de base ampla (ScanNet++, Replica), o 3AM supera substancialmente o SAM2 e suas extensões, alcançando 90,6% de IoU e 71,7% de IoU Positivo no Subconjunto Selecionado do ScanNet++, melhorando os métodos state-of-the-art de VOS em +15,9 e +30,4 pontos. Página do projeto: https://jayisaking.github.io/3AM-Page/

English

Video object segmentation methods like SAM2 achieve strong performance through memory-based architectures but struggle under large viewpoint changes due to reliance on appearance features. Traditional 3D instance segmentation methods address viewpoint consistency but require camera poses, depth maps, and expensive preprocessing. We introduce 3AM, a training-time enhancement that integrates 3D-aware features from MUSt3R into SAM2. Our lightweight Feature Merger fuses multi-level MUSt3R features that encode implicit geometric correspondence. Combined with SAM2's appearance features, the model achieves geometry-consistent recognition grounded in both spatial position and visual similarity. We propose a field-of-view aware sampling strategy ensuring frames observe spatially consistent object regions for reliable 3D correspondence learning. Critically, our method requires only RGB input at inference, with no camera poses or preprocessing. On challenging datasets with wide-baseline motion (ScanNet++, Replica), 3AM substantially outperforms SAM2 and extensions, achieving 90.6% IoU and 71.7% Positive IoU on ScanNet++'s Selected Subset, improving over state-of-the-art VOS methods by +15.9 and +30.4 points. Project page: https://jayisaking.github.io/3AM-Page/

3AM: Segmentar Qualquer Coisa com Consistência Geométrica em Vídeos

3AM: Segment Anything with Geometric Consistency in Videos

Resumo

Support