ChatPaper.aiChatPaper

Des masques aux pixels et au sens : nouvelle taxonomie, référence et métriques pour la falsification d'images par VLM

From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

March 20, 2026
Auteurs: Xinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Jing-Hao Xue, Hao Li, Salman Khan, Zhiqiang Shen
cs.AI

Résumé

Les benchmarks existants pour la détection de falsification reposent largement sur des masques d'objets, ce qui s'aligne mal avec le véritable signal d'édition : de nombreux pixels à l'intérieur d'un masque restent intacts ou ne sont que trivialement modifiés, tandis que des modifications subtiles mais conséquentes en dehors du masque sont traitées comme naturelles. Nous reformulons la falsification d'images par VLM en passant d'étiquettes de régions grossières à une tâche ancrée au niveau pixel, sensible à la signification et au langage. Premièrement, nous introduisons une taxonomie couvrant les primitives d'édition (remplacement/suppression/découpe/restauration/attribut/colorisation, etc.) et la classe sémantique de l'objet falsifié, reliant les changements de bas niveau à une compréhension de haut niveau. Deuxièmement, nous publions un nouveau benchmark avec des cartes de falsification par pixel et une supervision par catégorie appariée pour évaluer la détection et la classification dans un protocole unifié. Troisièmement, nous proposons un cadre d'entraînement et des métriques d'évaluation qui quantifient la justesse au niveau pixel avec localisation pour évaluer la confiance ou la prédiction sur l'intensité réelle de l'édition, et mesurent en outre la compréhension de la signification de la falsification via une classification sensible à la sémantique et des descriptions en langage naturel pour les régions prédites. Nous réévaluons également les bases de référence solides existantes en segmentation/localisation sur les détecteurs de falsification récents et performants, et révélons des sur- et sous-évaluations substantielles lors de l'utilisation de métriques basées uniquement sur les masques, tout en exposant les modes d'échec sur les micro-modifications et les changements hors masque. Notre cadre fait progresser le domaine des masques vers les pixels, les significations et les descriptions langagières, établissant une norme rigoureuse pour la localisation des falsifications, la classification sémantique et la description. Le code et les données du benchmark sont disponibles à l'adresse https://github.com/VILA-Lab/PIXAR.
English
Existing tampering detection benchmarks largely rely on object masks, which severely misalign with the true edit signal: many pixels inside a mask are untouched or only trivially modified, while subtle yet consequential edits outside the mask are treated as natural. We reformulate VLM image tampering from coarse region labels to a pixel-grounded, meaning and language-aware task. First, we introduce a taxonomy spanning edit primitives (replace/remove/splice/inpaint/attribute/colorization, etc.) and their semantic class of tampered object, linking low-level changes to high-level understanding. Second, we release a new benchmark with per-pixel tamper maps and paired category supervision to evaluate detection and classification within a unified protocol. Third, we propose a training framework and evaluation metrics that quantify pixel-level correctness with localization to assess confidence or prediction on true edit intensity, and further measure tamper meaning understanding via semantics-aware classification and natural language descriptions for the predicted regions. We also re-evaluate the existing strong segmentation/localization baselines on recent strong tamper detectors and reveal substantial over- and under-scoring using mask-only metrics, and expose failure modes on micro-edits and off-mask changes. Our framework advances the field from masks to pixels, meanings and language descriptions, establishing a rigorous standard for tamper localization, semantic classification and description. Code and benchmark data are available at https://github.com/VILA-Lab/PIXAR.
PDF11March 24, 2026