MaGGIe: 마스크 기반 점진적 인간 인스턴스 매팅
MaGGIe: Masked Guided Gradual Human Instance Matting
April 24, 2024
저자: Chuong Huynh, Seoung Wug Oh, Abhinav Shrivastava, Joon-Young Lee
cs.AI
초록
인물 매팅(Matting)은 이미지 및 비디오 처리의 기초적인 작업으로, 입력에서 인물 전경 픽셀을 추출하는 과정입니다. 기존 연구들은 추가적인 지침을 통해 정확도를 개선하거나 단일 인스턴스에 대한 프레임 간 시간적 일관성을 향상시키는 데 초점을 맞췄습니다. 본 논문에서는 새로운 프레임워크인 MaGGIe(Masked Guided Gradual Human Instance Matting)를 제안합니다. 이 프레임워크는 각 인물 인스턴스에 대해 점진적으로 알파 매트(alpha matte)를 예측하면서도 계산 비용, 정밀도, 일관성을 유지합니다. 우리의 방법은 트랜스포머 어텐션(transformer attention)과 희소 컨볼루션(sparse convolution)을 포함한 현대적인 아키텍처를 활용하여 메모리와 지연 시간을 폭발적으로 증가시키지 않으면서도 모든 인스턴스 매트를 동시에 출력합니다. 다중 인스턴스 시나리오에서도 일정한 추론 비용을 유지하면서, 우리의 프레임워크는 제안된 합성 벤치마크에서 강력하고 다재다능한 성능을 달성합니다. 더 높은 품질의 이미지 및 비디오 매팅 벤치마크와 함께, 공개적으로 이용 가능한 소스로부터의 새로운 다중 인스턴스 합성 접근법을 도입하여 실제 시나리오에서 모델의 일반화 능력을 향상시켰습니다.
English
Human matting is a foundation task in image and video processing, where human
foreground pixels are extracted from the input. Prior works either improve the
accuracy by additional guidance or improve the temporal consistency of a single
instance across frames. We propose a new framework MaGGIe, Masked Guided
Gradual Human Instance Matting, which predicts alpha mattes progressively for
each human instances while maintaining the computational cost, precision, and
consistency. Our method leverages modern architectures, including transformer
attention and sparse convolution, to output all instance mattes simultaneously
without exploding memory and latency. Although keeping constant inference costs
in the multiple-instance scenario, our framework achieves robust and versatile
performance on our proposed synthesized benchmarks. With the higher quality
image and video matting benchmarks, the novel multi-instance synthesis approach
from publicly available sources is introduced to increase the generalization of
models in real-world scenarios.Summary
AI-Generated Summary