ChatPaper.aiChatPaper

Formation pour la Vision à Rayons X : Segmentation Amodale, Complétion de Contenu Amodal et Représentation d'Objets Invariants à la Vue à partir de Vidéos Multi-Caméras

Training for X-Ray Vision: Amodal Segmentation, Amodal Content Completion, and View-Invariant Object Representation from Multi-Camera Video

July 1, 2025
Auteurs: Alexander Moore, Amar Saini, Kylie Cancilla, Doug Poland, Carmen Carrano
cs.AI

Résumé

La segmentation amodale et la complétion de contenu amodal nécessitent l'utilisation de connaissances a priori sur les objets pour estimer les masques occlus et les caractéristiques des objets dans des scènes complexes. Jusqu'à présent, aucune donnée n'a fourni une dimension supplémentaire pour le contexte des objets : la possibilité de plusieurs caméras partageant une vue d'une même scène. Nous présentons MOVi-MC-AC : Multiple Object Video with Multi-Cameras and Amodal Content, le plus grand ensemble de données de segmentation amodale et le premier ensemble de données de contenu amodal à ce jour. Des scènes encombrées d'objets domestiques génériques sont simulées dans des vidéos multi-caméras. MOVi-MC-AC contribue à la littérature croissante sur la détection, le suivi et la segmentation d'objets en incluant deux nouvelles contributions au monde de l'apprentissage profond pour la vision par ordinateur. Les configurations à plusieurs caméras (MC), où les objets peuvent être identifiés et suivis entre différentes perspectives uniques de caméras, sont rares dans les vidéos synthétiques et réelles. Nous introduisons une nouvelle complexité dans les vidéos synthétiques en fournissant des identifiants d'objets cohérents pour les détections et les segmentations entre les images et plusieurs caméras, chacune avec des caractéristiques et des motifs de mouvement uniques sur une seule scène. Le contenu amodal (AC) est une tâche de reconstruction dans laquelle les modèles prédisent l'apparence des objets cibles à travers les occlusions. Dans la littérature sur la segmentation amodale, certains ensembles de données ont été publiés avec des étiquettes de détection, de suivi et de segmentation amodaux. Alors que d'autres méthodes reposent sur des schémas lents de copier-coller pour générer des pseudo-étiquettes de contenu amodal, elles ne prennent pas en compte les occlusions naturelles présentes dans les masques modaux. MOVi-MC-AC fournit des étiquettes pour environ 5,8 millions d'instances d'objets, établissant un nouveau maximum dans la littérature des ensembles de données amodaux, tout en étant le premier à fournir un contenu amodal de référence. L'ensemble de données complet est disponible à l'adresse suivante : https://huggingface.co/datasets/Amar-S/MOVi-MC-AC.
English
Amodal segmentation and amodal content completion require using object priors to estimate occluded masks and features of objects in complex scenes. Until now, no data has provided an additional dimension for object context: the possibility of multiple cameras sharing a view of a scene. We introduce MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, the largest amodal segmentation and first amodal content dataset to date. Cluttered scenes of generic household objects are simulated in multi-camera video. MOVi-MC-AC contributes to the growing literature of object detection, tracking, and segmentation by including two new contributions to the deep learning for computer vision world. Multiple Camera (MC) settings where objects can be identified and tracked between various unique camera perspectives are rare in both synthetic and real-world video. We introduce a new complexity to synthetic video by providing consistent object ids for detections and segmentations between both frames and multiple cameras each with unique features and motion patterns on a single scene. Amodal Content (AC) is a reconstructive task in which models predict the appearance of target objects through occlusions. In the amodal segmentation literature, some datasets have been released with amodal detection, tracking, and segmentation labels. While other methods rely on slow cut-and-paste schemes to generate amodal content pseudo-labels, they do not account for natural occlusions present in the modal masks. MOVi-MC-AC provides labels for ~5.8 million object instances, setting a new maximum in the amodal dataset literature, along with being the first to provide ground-truth amodal content. The full dataset is available at https://huggingface.co/datasets/Amar-S/MOVi-MC-AC ,
PDF81July 2, 2025