가면에서 픽셀과 의미로: VLM 이미지 변조를 위한 새로운 분류체계, 벤치마크 및 평가 지표
From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering
March 20, 2026
저자: Xinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Jing-Hao Xue, Hao Li, Salman Khan, Zhiqiang Shen
cs.AI
초록
기존의 변조 탐지 벤치마크는 대부분 객체 마스크에 의존하고 있으며, 이는 실제 편집 신호와 심각하게 불일치합니다: 마스크 내부의 많은 픽셀은 변경되지 않았거나 사소하게 수정된 반면, 마스크 외부의 미세하지만 중요한 편집은 자연스러운 것으로 처리됩니다. 우리는 VLM 이미지 변조 탐지를 거친 영역 라벨링에서 픽셀 기반의 의미 및 언어 인식 작업으로 재정의합니다. 첫째, 편집 기본 요소(대체/제거/결합/인페인팅/속성/색상화 등)와 변조된 객체의 의미론적 클래스를 아우르는 분류 체계를 도입하여 저수준 변경 사항을 고수준 이해와 연결합니다. 둘째, 통합된 프로토콜 내에서 탐지 및 분류를 평가하기 위해 픽셀 단위 변조 맵과 짝을 이룬 범주 지도를 포함한 새로운 벤치마크를 공개합니다. 셋째, 실제 편집 강도에 대한 신뢰도 또는 예측을 평가하기 위해 위치 정보를 고려한 픽셀 수준 정확도를 정량화하는 훈련 프레임워크와 평가 지표를 제안하고, 예측된 영역에 대한 의미 인식 분류 및 자연어 설명을 통해 변조 의미 이해도를 추가적으로 측정합니다. 또한 최신 강력한 변조 탐지기 기반의 기존 강력한 분할/위치 파악 베이스라인을 재평가하고, 마스크 전용 지표를 사용할 때 발생하는 상당한 점수 과대 및 과소 평가를 밝히며, 미세 편집 및 마스크 외부 변경 사항에서의 실패 모드를 드러냅니다. 우리의 프레임워크는 마스크에서 픽셀, 의미, 언어 설명으로의 전환을 통해 변조 위치 파악, 의미론적 분류 및 설명을 위한 엄격한 표준을 확립합니다. 코드 및 벤치마크 데이터는 https://github.com/VILA-Lab/PIXAR에서 확인할 수 있습니다.
English
Existing tampering detection benchmarks largely rely on object masks, which severely misalign with the true edit signal: many pixels inside a mask are untouched or only trivially modified, while subtle yet consequential edits outside the mask are treated as natural. We reformulate VLM image tampering from coarse region labels to a pixel-grounded, meaning and language-aware task. First, we introduce a taxonomy spanning edit primitives (replace/remove/splice/inpaint/attribute/colorization, etc.) and their semantic class of tampered object, linking low-level changes to high-level understanding. Second, we release a new benchmark with per-pixel tamper maps and paired category supervision to evaluate detection and classification within a unified protocol. Third, we propose a training framework and evaluation metrics that quantify pixel-level correctness with localization to assess confidence or prediction on true edit intensity, and further measure tamper meaning understanding via semantics-aware classification and natural language descriptions for the predicted regions. We also re-evaluate the existing strong segmentation/localization baselines on recent strong tamper detectors and reveal substantial over- and under-scoring using mask-only metrics, and expose failure modes on micro-edits and off-mask changes. Our framework advances the field from masks to pixels, meanings and language descriptions, establishing a rigorous standard for tamper localization, semantic classification and description. Code and benchmark data are available at https://github.com/VILA-Lab/PIXAR.