РАЗРЕЗ: Разделите Меня во Времени
SMITE: Segment Me In TimE
October 24, 2024
Авторы: Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari Taghanaki, Andrea Tagliasacchi, Ghassan Hamarneh, Ali Mahdavi Amiri
cs.AI
Аннотация
Сегментация объекта в видео представляет существенные трудности. Каждому пикселю необходимо точно присвоить метку, и эти метки должны оставаться согласованными на протяжении кадров. Сложность возрастает, когда сегментация происходит с произвольной детализацией, что означает, что количество сегментов может произвольно изменяться, а маски определяются на основе только одного или нескольких образцов изображений. В данной статье мы решаем эту проблему, используя предварительно обученную модель диффузии текста в изображение, дополненную дополнительным механизмом отслеживания. Мы демонстрируем, что наш подход эффективно управляет различными сценариями сегментации и превосходит альтернативы, считающиеся передовыми.
English
Segmenting an object in a video presents significant challenges. Each pixel
must be accurately labelled, and these labels must remain consistent across
frames. The difficulty increases when the segmentation is with arbitrary
granularity, meaning the number of segments can vary arbitrarily, and masks are
defined based on only one or a few sample images. In this paper, we address
this issue by employing a pre-trained text to image diffusion model
supplemented with an additional tracking mechanism. We demonstrate that our
approach can effectively manage various segmentation scenarios and outperforms
state-of-the-art alternatives.Summary
AI-Generated Summary