Treinamento para Visão de Raios-X: Segmentação Amodal, Conclusão de Conteúdo Amodal e Representação de Objetos Invariante à Vista a partir de Vídeo Multicâmera
Training for X-Ray Vision: Amodal Segmentation, Amodal Content Completion, and View-Invariant Object Representation from Multi-Camera Video
July 1, 2025
Autores: Alexander Moore, Amar Saini, Kylie Cancilla, Doug Poland, Carmen Carrano
cs.AI
Resumo
A segmentação amodal e a conclusão de conteúdo amodal exigem o uso de conhecimentos prévios sobre objetos para estimar máscaras ocluídas e características de objetos em cenas complexas. Até o momento, nenhum conjunto de dados forneceu uma dimensão adicional para o contexto dos objetos: a possibilidade de múltiplas câmeras compartilharem a visão de uma cena. Apresentamos o MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, o maior conjunto de dados de segmentação amodal e o primeiro de conteúdo amodal até hoje. Cenas desordenadas de objetos domésticos genéricos são simuladas em vídeos com múltiplas câmeras. O MOVi-MC-AC contribui para a crescente literatura sobre detecção, rastreamento e segmentação de objetos ao incluir duas novas contribuições para o mundo do aprendizado profundo aplicado à visão computacional. Configurações com Múltiplas Câmeras (MC), onde objetos podem ser identificados e rastreados entre diversas perspectivas únicas de câmeras, são raras tanto em vídeos sintéticos quanto no mundo real. Introduzimos uma nova complexidade aos vídeos sintéticos ao fornecer IDs consistentes de objetos para detecções e segmentações entre quadros e múltiplas câmeras, cada uma com características e padrões de movimento únicos em uma única cena. Conteúdo Amodal (AC) é uma tarefa reconstrutiva na qual os modelos preveem a aparência de objetos alvo através de oclusões. Na literatura de segmentação amodal, alguns conjuntos de dados foram lançados com rótulos de detecção, rastreamento e segmentação amodal. Enquanto outros métodos dependem de esquemas lentos de "recortar e colar" para gerar pseudo-rótulos de conteúdo amodal, eles não consideram as oclusões naturais presentes nas máscaras modais. O MOVi-MC-AC fornece rótulos para aproximadamente 5,8 milhões de instâncias de objetos, estabelecendo um novo máximo na literatura de conjuntos de dados amodais, além de ser o primeiro a fornecer conteúdo amodal de verdade absoluta. O conjunto de dados completo está disponível em https://huggingface.co/datasets/Amar-S/MOVi-MC-AC.
English
Amodal segmentation and amodal content completion require using object priors
to estimate occluded masks and features of objects in complex scenes. Until
now, no data has provided an additional dimension for object context: the
possibility of multiple cameras sharing a view of a scene. We introduce
MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, the
largest amodal segmentation and first amodal content dataset to date. Cluttered
scenes of generic household objects are simulated in multi-camera video.
MOVi-MC-AC contributes to the growing literature of object detection, tracking,
and segmentation by including two new contributions to the deep learning for
computer vision world. Multiple Camera (MC) settings where objects can be
identified and tracked between various unique camera perspectives are rare in
both synthetic and real-world video. We introduce a new complexity to synthetic
video by providing consistent object ids for detections and segmentations
between both frames and multiple cameras each with unique features and motion
patterns on a single scene. Amodal Content (AC) is a reconstructive task in
which models predict the appearance of target objects through occlusions. In
the amodal segmentation literature, some datasets have been released with
amodal detection, tracking, and segmentation labels. While other methods rely
on slow cut-and-paste schemes to generate amodal content pseudo-labels, they do
not account for natural occlusions present in the modal masks. MOVi-MC-AC
provides labels for ~5.8 million object instances, setting a new maximum in the
amodal dataset literature, along with being the first to provide ground-truth
amodal content. The full dataset is available at
https://huggingface.co/datasets/Amar-S/MOVi-MC-AC ,