Dalle maschere ai pixel e al significato: una nuova tassonomia, benchmark e metriche per la manipolazione di immagini nei VLM

Abstract

I benchmark esistenti per il rilevamento di manipolazioni si basano in larga misura su maschere di oggetti, le quali risultano fortemente disallineate rispetto al vero segnale di modifica: molti pixel all'interno di una maschera rimangono inalterati o sono modificati solo in modo trascurabile, mentre modifiche sottili ma significative al di fuori della maschera vengono trattate come naturali. Noi riformuliamo il problema del rilevamento di manipolazioni nelle immagini per VLM (Vision-Language Models), passando da etichette di regioni approssimative a un compito ancorato a livello di pixel, consapevole del significato e del linguaggio. In primo luogo, introduciamo una tassonomia che spazia dai primitivi di modifica (sostituire/rimuovere/inserire/inpaint/attribuire/colorizzare, ecc.) alla classe semantica dell'oggetto manipolato, collegando così i cambiamenti di basso livello a una comprensione di alto livello. In secondo luogo, rilasciamo un nuovo benchmark con mappe di manipolazione per pixel e supervisione di categoria abbinata, per valutare il rilevamento e la classificazione all'interno di un protocollo unificato. In terzo luogo, proponiamo un framework di addestramento e metriche di valutazione che quantificano la correttezza a livello di pixel con localizzazione, per valutare la confidenza o la previsione sulla reale intensità della modifica, e misurano ulteriormente la comprensione del significato della manipolazione attraverso una classificazione consapevole della semantica e descrizioni in linguaggio naturale per le regioni predette. Rivalutiamo inoltre le solide baseline esistenti di segmentazione/localizzazione sui recenti e potenti rilevatori di manipolazioni, rivelando una sostanziale sovra- e sotto-valutazione quando si utilizzano metriche basate solo sulle maschere, ed esponendo le modalità di fallimento su micro-modifiche e cambiamenti al di fuori della maschera. Il nostro framework avanza il campo dalle maschere ai pixel, ai significati e alle descrizioni linguistiche, stabilendo uno standard rigoroso per la localizzazione delle manipolazioni, la classificazione semantica e la descrizione. Il codice e i dati del benchmark sono disponibili all'indirizzo https://github.com/VILA-Lab/PIXAR.

English

Existing tampering detection benchmarks largely rely on object masks, which severely misalign with the true edit signal: many pixels inside a mask are untouched or only trivially modified, while subtle yet consequential edits outside the mask are treated as natural. We reformulate VLM image tampering from coarse region labels to a pixel-grounded, meaning and language-aware task. First, we introduce a taxonomy spanning edit primitives (replace/remove/splice/inpaint/attribute/colorization, etc.) and their semantic class of tampered object, linking low-level changes to high-level understanding. Second, we release a new benchmark with per-pixel tamper maps and paired category supervision to evaluate detection and classification within a unified protocol. Third, we propose a training framework and evaluation metrics that quantify pixel-level correctness with localization to assess confidence or prediction on true edit intensity, and further measure tamper meaning understanding via semantics-aware classification and natural language descriptions for the predicted regions. We also re-evaluate the existing strong segmentation/localization baselines on recent strong tamper detectors and reveal substantial over- and under-scoring using mask-only metrics, and expose failure modes on micro-edits and off-mask changes. Our framework advances the field from masks to pixels, meanings and language descriptions, establishing a rigorous standard for tamper localization, semantic classification and description. Code and benchmark data are available at https://github.com/VILA-Lab/PIXAR.

Dalle maschere ai pixel e al significato: una nuova tassonomia, benchmark e metriche per la manipolazione di immagini nei VLM

From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Abstract

Support