Training für Röntgenblick: Amodale Segmentierung, amodale Inhaltsvervollständigung und blickinvariante Objektdarstellung aus Multi-Kamera-Videos
Training for X-Ray Vision: Amodal Segmentation, Amodal Content Completion, and View-Invariant Object Representation from Multi-Camera Video
July 1, 2025
Autoren: Alexander Moore, Amar Saini, Kylie Cancilla, Doug Poland, Carmen Carrano
cs.AI
Zusammenfassung
Amodale Segmentierung und amodale Inhaltsvervollständigung erfordern die Verwendung von Objektprioren, um verdeckte Masken und Merkmale von Objekten in komplexen Szenen zu schätzen. Bislang hat kein Datensatz eine zusätzliche Dimension für den Objektkontext bereitgestellt: die Möglichkeit, dass mehrere Kameras eine gemeinsame Sicht auf eine Szene haben. Wir stellen MOVi-MC-AC vor: Multiple Object Video with Multi-Cameras and Amodal Content, den größten Datensatz für amodale Segmentierung und den ersten Datensatz für amodale Inhalte bis heute. Überladene Szenen mit generischen Haushaltsgegenständen werden in Multi-Kamera-Videos simuliert. MOVi-MC-AC leistet einen Beitrag zur wachsenden Literatur über Objekterkennung, -verfolgung und -segmentierung, indem er zwei neue Beiträge zur Deep-Learning-Welt der Computer Vision liefert. Mehrfachkamera-Einstellungen (MC), in denen Objekte zwischen verschiedenen einzigartigen Kameraperspektiven identifiziert und verfolgt werden können, sind sowohl in synthetischen als auch in realen Videos selten. Wir führen eine neue Komplexität in synthetische Videos ein, indem wir konsistente Objekt-IDs für Erkennungen und Segmentierungen sowohl zwischen Bildern als auch zwischen mehreren Kameras bereitstellen, die jeweils einzigartige Merkmale und Bewegungsmuster in einer einzigen Szene aufweisen. Amodale Inhalte (AC) sind eine rekonstruktive Aufgabe, bei der Modelle das Erscheinungsbild von Zielobjeten durch Verdeckungen vorhersagen. In der Literatur zur amodalen Segmentierung wurden einige Datensätze mit amodalen Erkennungs-, Verfolgungs- und Segmentierungsetiketten veröffentlicht. Während andere Methoden auf langsame Cut-and-Paste-Schemata zurückgreifen, um amodale Inhalte als Pseudo-Labels zu generieren, berücksichtigen sie nicht die natürlichen Verdeckungen, die in den modalen Masken vorhanden sind. MOVi-MC-AC bietet Etiketten für ~5,8 Millionen Objektinstanzen und setzt damit ein neues Maximum in der Literatur zu amodalen Datensätzen, zusätzlich dazu, dass es als erster Datensatz Ground-Truth-amodale Inhalte bereitstellt. Der vollständige Datensatz ist verfügbar unter https://huggingface.co/datasets/Amar-S/MOVi-MC-AC.
English
Amodal segmentation and amodal content completion require using object priors
to estimate occluded masks and features of objects in complex scenes. Until
now, no data has provided an additional dimension for object context: the
possibility of multiple cameras sharing a view of a scene. We introduce
MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, the
largest amodal segmentation and first amodal content dataset to date. Cluttered
scenes of generic household objects are simulated in multi-camera video.
MOVi-MC-AC contributes to the growing literature of object detection, tracking,
and segmentation by including two new contributions to the deep learning for
computer vision world. Multiple Camera (MC) settings where objects can be
identified and tracked between various unique camera perspectives are rare in
both synthetic and real-world video. We introduce a new complexity to synthetic
video by providing consistent object ids for detections and segmentations
between both frames and multiple cameras each with unique features and motion
patterns on a single scene. Amodal Content (AC) is a reconstructive task in
which models predict the appearance of target objects through occlusions. In
the amodal segmentation literature, some datasets have been released with
amodal detection, tracking, and segmentation labels. While other methods rely
on slow cut-and-paste schemes to generate amodal content pseudo-labels, they do
not account for natural occlusions present in the modal masks. MOVi-MC-AC
provides labels for ~5.8 million object instances, setting a new maximum in the
amodal dataset literature, along with being the first to provide ground-truth
amodal content. The full dataset is available at
https://huggingface.co/datasets/Amar-S/MOVi-MC-AC ,