ChatPaper.aiChatPaper

ReferEverything: Rumo à Segmentação de Tudo Sobre o Qual Podemos Falar em Vídeos

ReferEverything: Towards Segmenting Everything We Can Speak of in Videos

October 30, 2024
Autores: Anurag Bagchi, Zhipeng Bao, Yu-Xiong Wang, Pavel Tokmakov, Martial Hebert
cs.AI

Resumo

Apresentamos REM, um framework para segmentar uma ampla gama de conceitos em vídeo que podem ser descritos por meio de linguagem natural. Nosso método se baseia em representações visual-linguísticas aprendidas por modelos de difusão de vídeo em conjuntos de dados em escala da Internet. Uma percepção fundamental de nossa abordagem é preservar o máximo possível da representação original do modelo generativo, ao mesmo tempo em que o ajusta em conjuntos de dados de Segmentação de Objetos de Referência de domínio estreito. Como resultado, nosso framework pode segmentar e rastrear com precisão objetos raros e não vistos, apesar de ter sido treinado em máscaras de objetos de um conjunto limitado de categorias. Além disso, ele pode generalizar para conceitos dinâmicos não relacionados a objetos, como ondas quebrando no oceano, conforme demonstrado em nosso novo benchmark introduzido para Segmentação de Processo de Vídeo de Referência (Ref-VPS). Nossos experimentos mostram que o REM tem desempenho comparável a abordagens de ponta em conjuntos de dados no domínio, como Ref-DAVIS, enquanto as supera em até doze pontos em termos de similaridade de região em dados fora do domínio, aproveitando o poder do pré-treinamento em escala da Internet.
English
We present REM, a framework for segmenting a wide range of concepts in video that can be described through natural language. Our method capitalizes on visual-language representations learned by video diffusion models on Internet-scale datasets. A key insight of our approach is preserving as much of the generative model's original representation as possible, while fine-tuning it on narrow-domain Referral Object Segmentation datasets. As a result, our framework can accurately segment and track rare and unseen objects, despite being trained on object masks from a limited set of categories. Additionally, it can generalize to non-object dynamic concepts, such as waves crashing in the ocean, as demonstrated in our newly introduced benchmark for Referral Video Process Segmentation (Ref-VPS). Our experiments show that REM performs on par with state-of-the-art approaches on in-domain datasets, like Ref-DAVIS, while outperforming them by up to twelve points in terms of region similarity on out-of-domain data, leveraging the power of Internet-scale pre-training.

Summary

AI-Generated Summary

PDF193November 16, 2024