Van Maskers naar Pixels en Betekenis: Een Nieuwe Taxonomie, Benchmark en Metrieken voor VLM-beeldmanipulatie

Samenvatting

Bestaande benchmarks voor manipulatie-detectie vertrouwen grotendeels op objectmaskers, wat ernstig niet overeenkomt met het werkelijke bewerksignaal: veel pixels binnen een masker zijn onaangeroerd of slechts triviaal aangepast, terwijl subtiele maar significante bewerkingen buiten het masker als natuurlijk worden behandeld. Wij herformuleren VLM-beeldmanipulatie van grove regiolabels naar een pixelgebaseerde, betekenis- en taalbewuste taak. Ten eerste introduceren we een taxonomie die bewerkingsprimitieven (vervangen/verwijderen/splitsen/inpainten/attribuut/kleuring, etc.) en hun semantische klasse van gemanipuleerde objecten omvat, waardoor low-level veranderingen worden gekoppeld aan high-level begrip. Ten tweede lanceren we een nieuwe benchmark met per-pixel manipulatiekaarten en gekoppelde categorie-supervisie om detectie en classificatie binnen een uniform protocol te evalueren. Ten derde stellen we een trainingsraamwerk en evaluatiemetrieken voor die pixel-level nauwkeurigheid kwantificeren met lokalisatie om de betrouwbaarheid of voorspelling van de werkelijke bewerkingsintensiteit te beoordelen, en meten we verder het begrip van manipulatiebetekenis via semantiekbewuste classificatie en natuurlijke-taalbeschrijvingen voor de voorspelde regio's. We her-evalueren ook de bestaande sterke segmentatie/lokalisatie-baselines op recente sterke manipulatiedetectoren en onthullen aanzienlijke over- en onderwaardering met uitsluitend maskermetrieken, en leggen faalmodi bloot bij micro-bewerkingen en veranderingen buiten het masker. Ons raamwerk verplaatst het vakgebied van maskers naar pixels, betekenissen en taalbeschrijvingen, en stelt een rigoureuze standaard in voor manipulatielokalisatie, semantische classificatie en beschrijving. Code en benchmarkgegevens zijn beschikbaar op https://github.com/VILA-Lab/PIXAR.

English

Existing tampering detection benchmarks largely rely on object masks, which severely misalign with the true edit signal: many pixels inside a mask are untouched or only trivially modified, while subtle yet consequential edits outside the mask are treated as natural. We reformulate VLM image tampering from coarse region labels to a pixel-grounded, meaning and language-aware task. First, we introduce a taxonomy spanning edit primitives (replace/remove/splice/inpaint/attribute/colorization, etc.) and their semantic class of tampered object, linking low-level changes to high-level understanding. Second, we release a new benchmark with per-pixel tamper maps and paired category supervision to evaluate detection and classification within a unified protocol. Third, we propose a training framework and evaluation metrics that quantify pixel-level correctness with localization to assess confidence or prediction on true edit intensity, and further measure tamper meaning understanding via semantics-aware classification and natural language descriptions for the predicted regions. We also re-evaluate the existing strong segmentation/localization baselines on recent strong tamper detectors and reveal substantial over- and under-scoring using mask-only metrics, and expose failure modes on micro-edits and off-mask changes. Our framework advances the field from masks to pixels, meanings and language descriptions, establishing a rigorous standard for tamper localization, semantic classification and description. Code and benchmark data are available at https://github.com/VILA-Lab/PIXAR.

Van Maskers naar Pixels en Betekenis: Een Nieuwe Taxonomie, Benchmark en Metrieken voor VLM-beeldmanipulatie

From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Samenvatting

Support