ChatPaper.aiChatPaper

3AM: Segmentación de Cualquier Objeto con Consistencia Geométrica en Videos

3AM: Segment Anything with Geometric Consistency in Videos

January 13, 2026
Autores: Yang-Che Sun, Cheng Sun, Chin-Yang Lin, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
cs.AI

Resumen

Los métodos de segmentación de objetos en vídeo, como SAM2, logran un alto rendimiento mediante arquitecturas basadas en memoria, pero presentan dificultades ante grandes cambios de punto de vista debido a su dependencia de características de apariencia. Los métodos tradicionales de segmentación de instancias 3D abordan la consistencia del punto de vista, pero requieren poses de cámara, mapas de profundidad y un preprocesamiento costoso. Presentamos 3AM, una mejora en el tiempo de entrenamiento que integra características 3D-aware de MUSt3R en SAM2. Nuestro ligero Fusionador de Características combina características multi-nivel de MUSt3R que codifican correspondencia geométrica implícita. Combinado con las características de apariencia de SAM2, el modelo logra un reconocimiento geométricamente consistente basado tanto en la posición espacial como en la similitud visual. Proponemos una estrategia de muestreo consciente del campo de visión que asegura que los fotogramas observen regiones de objetos espacialmente consistentes para un aprendizaje fiable de correspondencia 3D. De manera crucial, nuestro método requiere únicamente entrada RGB en la inferencia, sin poses de cámara ni preprocesamiento. En conjuntos de datos desafiantes con movimiento de línea base amplia (ScanNet++, Replica), 3AM supera sustancialmente a SAM2 y sus extensiones, logrando un 90.6% de IoU y un 71.7% de IoU Positivo en el Subconjunto Seleccionado de ScanNet++, mejorando los métodos VOS más avanzados en +15.9 y +30.4 puntos. Página del proyecto: https://jayisaking.github.io/3AM-Page/
English
Video object segmentation methods like SAM2 achieve strong performance through memory-based architectures but struggle under large viewpoint changes due to reliance on appearance features. Traditional 3D instance segmentation methods address viewpoint consistency but require camera poses, depth maps, and expensive preprocessing. We introduce 3AM, a training-time enhancement that integrates 3D-aware features from MUSt3R into SAM2. Our lightweight Feature Merger fuses multi-level MUSt3R features that encode implicit geometric correspondence. Combined with SAM2's appearance features, the model achieves geometry-consistent recognition grounded in both spatial position and visual similarity. We propose a field-of-view aware sampling strategy ensuring frames observe spatially consistent object regions for reliable 3D correspondence learning. Critically, our method requires only RGB input at inference, with no camera poses or preprocessing. On challenging datasets with wide-baseline motion (ScanNet++, Replica), 3AM substantially outperforms SAM2 and extensions, achieving 90.6% IoU and 71.7% Positive IoU on ScanNet++'s Selected Subset, improving over state-of-the-art VOS methods by +15.9 and +30.4 points. Project page: https://jayisaking.github.io/3AM-Page/
PDF211January 15, 2026