ChatPaper.aiChatPaper

3AM: Сегментация чего угодно с геометрической согласованностью в видео

3AM: Segment Anything with Geometric Consistency in Videos

January 13, 2026
Авторы: Yang-Che Sun, Cheng Sun, Chin-Yang Lin, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
cs.AI

Аннотация

Методы видеосегментации объектов, такие как SAM2, демонстрируют высокую производительность благодаря архитектурам на основе памяти, но сталкиваются с трудностями при значительных изменениях ракурса из-за зависимости от признаков внешнего вида. Традиционные методы 3D-сегментации экземпляров решают проблему согласованности ракурса, но требуют данных о позе камеры, карт глубины и дорогостоящей предварительной обработки. Мы представляем 3AM — усовершенствование на этапе обучения, которое интегрирует 3D-ориентированные признаки из MUSt3R в SAM2. Наш легковесный модуль слияния признаков (Feature Merger) объединяет многоуровневые признаки MUSt3R, кодирующие неявное геометрическое соответствие. В сочетании с признаками внешнего вида SAM2 модель достигает геометрически согласованного распознавания, основанного как на пространственном положении, так и на визуальном сходстве. Мы предлагаем стратегию выборки с учетом поля зрения, обеспечивающую наблюдение за пространственно согласованными областями объекта для надежного обучения 3D-соответствию. Ключевым моментом является то, что наш метод на этапе вывода требует только RGB-входные данные, без необходимости в позах камеры или предварительной обработке. На сложных наборах данных с широкобазовым движением (ScanNet++, Replica) 3AM существенно превосходит SAM2 и его расширения, достигая 90,6% IoU и 71,7% Positive IoU на Selected Subset из ScanNet++, улучшая показатели передовых методов VOS на +15,9 и +30,4 пункта соответственно. Страница проекта: https://jayisaking.github.io/3AM-Page/
English
Video object segmentation methods like SAM2 achieve strong performance through memory-based architectures but struggle under large viewpoint changes due to reliance on appearance features. Traditional 3D instance segmentation methods address viewpoint consistency but require camera poses, depth maps, and expensive preprocessing. We introduce 3AM, a training-time enhancement that integrates 3D-aware features from MUSt3R into SAM2. Our lightweight Feature Merger fuses multi-level MUSt3R features that encode implicit geometric correspondence. Combined with SAM2's appearance features, the model achieves geometry-consistent recognition grounded in both spatial position and visual similarity. We propose a field-of-view aware sampling strategy ensuring frames observe spatially consistent object regions for reliable 3D correspondence learning. Critically, our method requires only RGB input at inference, with no camera poses or preprocessing. On challenging datasets with wide-baseline motion (ScanNet++, Replica), 3AM substantially outperforms SAM2 and extensions, achieving 90.6% IoU and 71.7% Positive IoU on ScanNet++'s Selected Subset, improving over state-of-the-art VOS methods by +15.9 and +30.4 points. Project page: https://jayisaking.github.io/3AM-Page/
PDF211January 15, 2026