ChatPaper.aiChatPaper

SMITE: Segmentação em Tempo.

SMITE: Segment Me In TimE

October 24, 2024
Autores: Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari Taghanaki, Andrea Tagliasacchi, Ghassan Hamarneh, Ali Mahdavi Amiri
cs.AI

Resumo

Segmentar um objeto em um vídeo apresenta desafios significativos. Cada pixel deve ser rotulado com precisão, e esses rótulos devem permanecer consistentes ao longo dos quadros. A dificuldade aumenta quando a segmentação é com granularidade arbitrária, o que significa que o número de segmentos pode variar arbitrariamente, e as máscaras são definidas com base em apenas uma ou algumas imagens de amostra. Neste artigo, abordamos essa questão empregando um modelo de difusão de texto para imagem pré-treinado complementado com um mecanismo de rastreamento adicional. Demonstramos que nossa abordagem pode gerenciar efetivamente vários cenários de segmentação e supera as alternativas de ponta.
English
Segmenting an object in a video presents significant challenges. Each pixel must be accurately labelled, and these labels must remain consistent across frames. The difficulty increases when the segmentation is with arbitrary granularity, meaning the number of segments can vary arbitrarily, and masks are defined based on only one or a few sample images. In this paper, we address this issue by employing a pre-trained text to image diffusion model supplemented with an additional tracking mechanism. We demonstrate that our approach can effectively manage various segmentation scenarios and outperforms state-of-the-art alternatives.

Summary

AI-Generated Summary

PDF165November 16, 2024