ChatPaper.aiChatPaper

De las máscaras a los píxeles y el significado: Una nueva taxonomía, referencia y métricas para la manipulación de imágenes en VLM

From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

March 20, 2026
Autores: Xinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Jing-Hao Xue, Hao Li, Salman Khan, Zhiqiang Shen
cs.AI

Resumen

Los puntos de referencia existentes para la detección de manipulaciones dependen en gran medida de máscaras de objetos, lo que genera una grave desalineación con la señal real de la edición: muchos píxeles dentro de una máscara permanecen intactos o solo se modifican trivialmente, mientras que ediciones sutiles pero consecuentes fuera de la máscara se tratan como naturales. Reformulamos la manipulación de imágenes con modelos de lenguaje visual (VLM) pasando de etiquetas de regiones gruesas a una tarea basada en píxeles, consciente del significado y del lenguaje. En primer lugar, introducimos una taxonomía que abarca primitivas de edición (reemplazar/eliminar/empalmar/inpaint/atribuir/colorización, etc.) y la clase semántica del objeto manipulado, vinculando los cambios de bajo nivel con la comprensión de alto nivel. En segundo lugar, presentamos un nuevo punto de referencia con mapas de manipulación por píxel y supervisión de categorías pareadas para evaluar la detección y clasificación dentro de un protocolo unificado. En tercer lugar, proponemos un marco de entrenamiento y métricas de evaluación que cuantifican la corrección a nivel de píxel con localización para evaluar la confianza o la predicción sobre la intensidad real de la edición, y además medimos la comprensión del significado de la manipulación mediante clasificación consciente de la semántica y descripciones en lenguaje natural para las regiones predichas. También reevaluamos las líneas base sólidas existentes de segmentación/localización en detectores de manipulación recientes y fuertes, y revelamos una sobrestimación y subestimación sustanciales al usar métricas basadas únicamente en máscaras, además de exponer modos de fallo en micro-ediciones y cambios fuera de la máscara. Nuestro marco avanza el campo desde las máscaras hacia los píxeles, los significados y las descripciones lingüísticas, estableciendo un estándar riguroso para la localización de manipulaciones, la clasificación semántica y la descripción. El código y los datos del punto de referencia están disponibles en https://github.com/VILA-Lab/PIXAR.
English
Existing tampering detection benchmarks largely rely on object masks, which severely misalign with the true edit signal: many pixels inside a mask are untouched or only trivially modified, while subtle yet consequential edits outside the mask are treated as natural. We reformulate VLM image tampering from coarse region labels to a pixel-grounded, meaning and language-aware task. First, we introduce a taxonomy spanning edit primitives (replace/remove/splice/inpaint/attribute/colorization, etc.) and their semantic class of tampered object, linking low-level changes to high-level understanding. Second, we release a new benchmark with per-pixel tamper maps and paired category supervision to evaluate detection and classification within a unified protocol. Third, we propose a training framework and evaluation metrics that quantify pixel-level correctness with localization to assess confidence or prediction on true edit intensity, and further measure tamper meaning understanding via semantics-aware classification and natural language descriptions for the predicted regions. We also re-evaluate the existing strong segmentation/localization baselines on recent strong tamper detectors and reveal substantial over- and under-scoring using mask-only metrics, and expose failure modes on micro-edits and off-mask changes. Our framework advances the field from masks to pixels, meanings and language descriptions, establishing a rigorous standard for tamper localization, semantic classification and description. Code and benchmark data are available at https://github.com/VILA-Lab/PIXAR.
PDF11March 24, 2026