Treinamento para Visão de Raios-X: Segmentação Amodal, Conclusão de Conteúdo Amodal e Representação de Objetos Invariante à Vista a partir de Vídeo Multicâmera

Resumo

A segmentação amodal e a conclusão de conteúdo amodal exigem o uso de conhecimentos prévios sobre objetos para estimar máscaras ocluídas e características de objetos em cenas complexas. Até o momento, nenhum conjunto de dados forneceu uma dimensão adicional para o contexto dos objetos: a possibilidade de múltiplas câmeras compartilharem a visão de uma cena. Apresentamos o MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, o maior conjunto de dados de segmentação amodal e o primeiro de conteúdo amodal até hoje. Cenas desordenadas de objetos domésticos genéricos são simuladas em vídeos com múltiplas câmeras. O MOVi-MC-AC contribui para a crescente literatura sobre detecção, rastreamento e segmentação de objetos ao incluir duas novas contribuições para o mundo do aprendizado profundo aplicado à visão computacional. Configurações com Múltiplas Câmeras (MC), onde objetos podem ser identificados e rastreados entre diversas perspectivas únicas de câmeras, são raras tanto em vídeos sintéticos quanto no mundo real. Introduzimos uma nova complexidade aos vídeos sintéticos ao fornecer IDs consistentes de objetos para detecções e segmentações entre quadros e múltiplas câmeras, cada uma com características e padrões de movimento únicos em uma única cena. Conteúdo Amodal (AC) é uma tarefa reconstrutiva na qual os modelos preveem a aparência de objetos alvo através de oclusões. Na literatura de segmentação amodal, alguns conjuntos de dados foram lançados com rótulos de detecção, rastreamento e segmentação amodal. Enquanto outros métodos dependem de esquemas lentos de "recortar e colar" para gerar pseudo-rótulos de conteúdo amodal, eles não consideram as oclusões naturais presentes nas máscaras modais. O MOVi-MC-AC fornece rótulos para aproximadamente 5,8 milhões de instâncias de objetos, estabelecendo um novo máximo na literatura de conjuntos de dados amodais, além de ser o primeiro a fornecer conteúdo amodal de verdade absoluta. O conjunto de dados completo está disponível em https://huggingface.co/datasets/Amar-S/MOVi-MC-AC.

English

Amodal segmentation and amodal content completion require using object priors to estimate occluded masks and features of objects in complex scenes. Until now, no data has provided an additional dimension for object context: the possibility of multiple cameras sharing a view of a scene. We introduce MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, the largest amodal segmentation and first amodal content dataset to date. Cluttered scenes of generic household objects are simulated in multi-camera video. MOVi-MC-AC contributes to the growing literature of object detection, tracking, and segmentation by including two new contributions to the deep learning for computer vision world. Multiple Camera (MC) settings where objects can be identified and tracked between various unique camera perspectives are rare in both synthetic and real-world video. We introduce a new complexity to synthetic video by providing consistent object ids for detections and segmentations between both frames and multiple cameras each with unique features and motion patterns on a single scene. Amodal Content (AC) is a reconstructive task in which models predict the appearance of target objects through occlusions. In the amodal segmentation literature, some datasets have been released with amodal detection, tracking, and segmentation labels. While other methods rely on slow cut-and-paste schemes to generate amodal content pseudo-labels, they do not account for natural occlusions present in the modal masks. MOVi-MC-AC provides labels for ~5.8 million object instances, setting a new maximum in the amodal dataset literature, along with being the first to provide ground-truth amodal content. The full dataset is available at https://huggingface.co/datasets/Amar-S/MOVi-MC-AC ,

Treinamento para Visão de Raios-X: Segmentação Amodal, Conclusão de Conteúdo Amodal e Representação de Objetos Invariante à Vista a partir de Vídeo Multicâmera

Training for X-Ray Vision: Amodal Segmentation, Amodal Content Completion, and View-Invariant Object Representation from Multi-Camera Video

Resumo

Support