ChatPaper.aiChatPaper

어떤 것도 매팅하기

Matting Anything

June 8, 2023
저자: Jiachen Li, Jitesh Jain, Humphrey Shi
cs.AI

초록

본 논문에서는 유연하고 상호작용적인 시각적 또는 언어적 사용자 프롬프트 안내를 통해 이미지 내 모든 인스턴스의 알파 매트(alpha matte)를 추정하기 위한 효율적이고 다목적 프레임워크인 Matting Anything Model(MAM)을 제안한다. MAM은 기존의 특화된 이미지 매팅 네트워크에 비해 몇 가지 중요한 장점을 제공한다: (i) MAM은 단일 모델로 의미론적(semantic), 인스턴스(instance), 참조(referring) 이미지 매팅을 포함한 다양한 유형의 이미지 매팅을 처리할 수 있다; (ii) MAM은 Segment Anything Model(SAM)의 특징 맵(feature map)을 활용하고 경량의 Mask-to-Matte(M2M) 모듈을 채택하여 반복적 정제를 통해 알파 매트를 예측하며, 이는 단 270만 개의 학습 가능한 매개변수만을 가진다; (iii) SAM을 통합함으로써 MAM은 이미지 매팅의 상호작용적 사용에 필요한 사용자 개입을 트라이맵(trimap)에서 박스, 점 또는 텍스트 프롬프트로 단순화한다. 우리는 다양한 이미지 매팅 벤치마크에서 MAM의 성능을 평가했으며, 실험 결과는 MAM이 각 벤치마크에서 서로 다른 메트릭 하에서 최신 특화된 이미지 매팅 모델과 비슷한 성능을 달성함을 보여준다. 전반적으로 MAM은 우수한 일반화 능력을 보여주며 더 적은 매개변수로 다양한 이미지 매팅 작업을 효과적으로 처리할 수 있어 통합된 이미지 매팅을 위한 실용적인 솔루션임을 입증한다. 우리의 코드와 모델은 https://github.com/SHI-Labs/Matting-Anything에서 오픈소스로 공개되어 있다.
English
In this paper, we propose the Matting Anything Model (MAM), an efficient and versatile framework for estimating the alpha matte of any instance in an image with flexible and interactive visual or linguistic user prompt guidance. MAM offers several significant advantages over previous specialized image matting networks: (i) MAM is capable of dealing with various types of image matting, including semantic, instance, and referring image matting with only a single model; (ii) MAM leverages the feature maps from the Segment Anything Model (SAM) and adopts a lightweight Mask-to-Matte (M2M) module to predict the alpha matte through iterative refinement, which has only 2.7 million trainable parameters. (iii) By incorporating SAM, MAM simplifies the user intervention required for the interactive use of image matting from the trimap to the box, point, or text prompt. We evaluate the performance of MAM on various image matting benchmarks, and the experimental results demonstrate that MAM achieves comparable performance to the state-of-the-art specialized image matting models under different metrics on each benchmark. Overall, MAM shows superior generalization ability and can effectively handle various image matting tasks with fewer parameters, making it a practical solution for unified image matting. Our code and models are open-sourced at https://github.com/SHI-Labs/Matting-Anything.
PDF63December 15, 2024