ChatPaper.aiChatPaper

SMITE: Segmentación en el Tiempo

SMITE: Segment Me In TimE

October 24, 2024
Autores: Amirhossein Alimohammadi, Sauradip Nag, Saeid Asgari Taghanaki, Andrea Tagliasacchi, Ghassan Hamarneh, Ali Mahdavi Amiri
cs.AI

Resumen

Segmentar un objeto en un video presenta desafíos significativos. Cada píxel debe ser etiquetado con precisión, y estas etiquetas deben mantenerse consistentes a lo largo de los fotogramas. La dificultad aumenta cuando la segmentación es con una granularidad arbitraria, lo que significa que el número de segmentos puede variar arbitrariamente, y las máscaras se definen en base a solo una o unas pocas imágenes de muestra. En este documento, abordamos este problema empleando un modelo de difusión de texto a imagen pre-entrenado complementado con un mecanismo de seguimiento adicional. Demostramos que nuestro enfoque puede gestionar eficazmente varios escenarios de segmentación y supera a las alternativas de vanguardia.
English
Segmenting an object in a video presents significant challenges. Each pixel must be accurately labelled, and these labels must remain consistent across frames. The difficulty increases when the segmentation is with arbitrary granularity, meaning the number of segments can vary arbitrarily, and masks are defined based on only one or a few sample images. In this paper, we address this issue by employing a pre-trained text to image diffusion model supplemented with an additional tracking mechanism. We demonstrate that our approach can effectively manage various segmentation scenarios and outperforms state-of-the-art alternatives.

Summary

AI-Generated Summary

PDF165November 16, 2024