ChatPaper.aiChatPaper

X-선 시야를 위한 학습: 다중 카메라 비디오에서의 아모달 분할, 아모달 콘텐츠 완성 및 시점 불변 객체 표현

Training for X-Ray Vision: Amodal Segmentation, Amodal Content Completion, and View-Invariant Object Representation from Multi-Camera Video

July 1, 2025
저자: Alexander Moore, Amar Saini, Kylie Cancilla, Doug Poland, Carmen Carrano
cs.AI

초록

아모달 분할(amodal segmentation)과 아모달 콘텐츠 완성(amodal content completion)은 복잡한 장면에서 가려진 객체의 마스크와 특징을 추정하기 위해 객체 사전 정보(object priors)를 사용해야 합니다. 지금까지는 객체 컨텍스트에 대한 추가적인 차원, 즉 여러 카메라가 동일한 장면을 공유할 가능성을 제공하는 데이터가 없었습니다. 우리는 MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content를 소개합니다. 이는 현재까지 가장 큰 아모달 분할 데이터셋이자 최초의 아모달 콘텐츠 데이터셋입니다. 일반적인 가정용 물건들로 어지럽게 구성된 장면이 다중 카메라 비디오로 시뮬레이션되었습니다. MOVi-MC-AC는 객체 탐지, 추적, 분할 분야의 문헌에 두 가지 새로운 기여를 함으로써 컴퓨터 비전을 위한 딥러닝 세계에 공헌합니다. 다중 카메라(MC) 설정은 객체가 다양한 독특한 카메라 시점 간에 식별되고 추적될 수 있는 환경으로, 합성 및 실제 비디오 모두에서 희귀합니다. 우리는 단일 장면에서 각각 고유한 특징과 움직임 패턴을 가진 여러 카메라 간에 프레임과 객체 탐지 및 분할을 위한 일관된 객체 ID를 제공함으로써 합성 비디오에 새로운 복잡성을 도입했습니다. 아모달 콘텐츠(AC)는 모델이 가려진 대상 객체의 외관을 예측하는 재구성 작업입니다. 아모달 분할 문헌에서는 아모달 탐지, 추적, 분할 레이블이 포함된 일부 데이터셋이 공개되었습니다. 다른 방법들은 아모달 콘텐츠 의사 레이블(pseudo-labels)을 생성하기 위해 느린 잘라 붙이기(cut-and-paste) 방식을 사용하지만, 모달 마스크에 존재하는 자연스러운 가림 현상을 고려하지 않습니다. MOVi-MC-AC는 약 580만 개의 객체 인스턴스에 대한 레이블을 제공하여 아모달 데이터셋 문헌에서 새로운 최대치를 설정했으며, 최초로 실제 아모달 콘텐츠의 정답(ground-truth)을 제공합니다. 전체 데이터셋은 https://huggingface.co/datasets/Amar-S/MOVi-MC-AC에서 이용 가능합니다.
English
Amodal segmentation and amodal content completion require using object priors to estimate occluded masks and features of objects in complex scenes. Until now, no data has provided an additional dimension for object context: the possibility of multiple cameras sharing a view of a scene. We introduce MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, the largest amodal segmentation and first amodal content dataset to date. Cluttered scenes of generic household objects are simulated in multi-camera video. MOVi-MC-AC contributes to the growing literature of object detection, tracking, and segmentation by including two new contributions to the deep learning for computer vision world. Multiple Camera (MC) settings where objects can be identified and tracked between various unique camera perspectives are rare in both synthetic and real-world video. We introduce a new complexity to synthetic video by providing consistent object ids for detections and segmentations between both frames and multiple cameras each with unique features and motion patterns on a single scene. Amodal Content (AC) is a reconstructive task in which models predict the appearance of target objects through occlusions. In the amodal segmentation literature, some datasets have been released with amodal detection, tracking, and segmentation labels. While other methods rely on slow cut-and-paste schemes to generate amodal content pseudo-labels, they do not account for natural occlusions present in the modal masks. MOVi-MC-AC provides labels for ~5.8 million object instances, setting a new maximum in the amodal dataset literature, along with being the first to provide ground-truth amodal content. The full dataset is available at https://huggingface.co/datasets/Amar-S/MOVi-MC-AC ,
PDF81July 2, 2025