ChatPaper.aiChatPaper

Training für Röntgenblick: Amodale Segmentierung, amodale Inhaltsvervollständigung und blickinvariante Objektdarstellung aus Multi-Kamera-Videos

Training for X-Ray Vision: Amodal Segmentation, Amodal Content Completion, and View-Invariant Object Representation from Multi-Camera Video

July 1, 2025
Autoren: Alexander Moore, Amar Saini, Kylie Cancilla, Doug Poland, Carmen Carrano
cs.AI

Zusammenfassung

Amodale Segmentierung und amodale Inhaltsvervollständigung erfordern die Verwendung von Objektprioren, um verdeckte Masken und Merkmale von Objekten in komplexen Szenen zu schätzen. Bislang hat kein Datensatz eine zusätzliche Dimension für den Objektkontext bereitgestellt: die Möglichkeit, dass mehrere Kameras eine gemeinsame Sicht auf eine Szene haben. Wir stellen MOVi-MC-AC vor: Multiple Object Video with Multi-Cameras and Amodal Content, den größten Datensatz für amodale Segmentierung und den ersten Datensatz für amodale Inhalte bis heute. Überladene Szenen mit generischen Haushaltsgegenständen werden in Multi-Kamera-Videos simuliert. MOVi-MC-AC leistet einen Beitrag zur wachsenden Literatur über Objekterkennung, -verfolgung und -segmentierung, indem er zwei neue Beiträge zur Deep-Learning-Welt der Computer Vision liefert. Mehrfachkamera-Einstellungen (MC), in denen Objekte zwischen verschiedenen einzigartigen Kameraperspektiven identifiziert und verfolgt werden können, sind sowohl in synthetischen als auch in realen Videos selten. Wir führen eine neue Komplexität in synthetische Videos ein, indem wir konsistente Objekt-IDs für Erkennungen und Segmentierungen sowohl zwischen Bildern als auch zwischen mehreren Kameras bereitstellen, die jeweils einzigartige Merkmale und Bewegungsmuster in einer einzigen Szene aufweisen. Amodale Inhalte (AC) sind eine rekonstruktive Aufgabe, bei der Modelle das Erscheinungsbild von Zielobjeten durch Verdeckungen vorhersagen. In der Literatur zur amodalen Segmentierung wurden einige Datensätze mit amodalen Erkennungs-, Verfolgungs- und Segmentierungsetiketten veröffentlicht. Während andere Methoden auf langsame Cut-and-Paste-Schemata zurückgreifen, um amodale Inhalte als Pseudo-Labels zu generieren, berücksichtigen sie nicht die natürlichen Verdeckungen, die in den modalen Masken vorhanden sind. MOVi-MC-AC bietet Etiketten für ~5,8 Millionen Objektinstanzen und setzt damit ein neues Maximum in der Literatur zu amodalen Datensätzen, zusätzlich dazu, dass es als erster Datensatz Ground-Truth-amodale Inhalte bereitstellt. Der vollständige Datensatz ist verfügbar unter https://huggingface.co/datasets/Amar-S/MOVi-MC-AC.
English
Amodal segmentation and amodal content completion require using object priors to estimate occluded masks and features of objects in complex scenes. Until now, no data has provided an additional dimension for object context: the possibility of multiple cameras sharing a view of a scene. We introduce MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, the largest amodal segmentation and first amodal content dataset to date. Cluttered scenes of generic household objects are simulated in multi-camera video. MOVi-MC-AC contributes to the growing literature of object detection, tracking, and segmentation by including two new contributions to the deep learning for computer vision world. Multiple Camera (MC) settings where objects can be identified and tracked between various unique camera perspectives are rare in both synthetic and real-world video. We introduce a new complexity to synthetic video by providing consistent object ids for detections and segmentations between both frames and multiple cameras each with unique features and motion patterns on a single scene. Amodal Content (AC) is a reconstructive task in which models predict the appearance of target objects through occlusions. In the amodal segmentation literature, some datasets have been released with amodal detection, tracking, and segmentation labels. While other methods rely on slow cut-and-paste schemes to generate amodal content pseudo-labels, they do not account for natural occlusions present in the modal masks. MOVi-MC-AC provides labels for ~5.8 million object instances, setting a new maximum in the amodal dataset literature, along with being the first to provide ground-truth amodal content. The full dataset is available at https://huggingface.co/datasets/Amar-S/MOVi-MC-AC ,
PDF81July 2, 2025