От масок к пикселям и смыслу: новая таксономия, эталонный набор данных и метрики для выявления подделки изображений с помощью визуально-языковых моделей
From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering
March 20, 2026
Авторы: Xinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Jing-Hao Xue, Hao Li, Salman Khan, Zhiqiang Shen
cs.AI
Аннотация
Существующие эталоны для обнаружения фальсификаций в значительной степени опираются на маски объектов, что серьезно расходится с реальными сигналами редактирования: множество пикселей внутри маски остаются нетронутыми или изменены незначительно, в то время как тонкие, но важные правки за пределами маски рассматриваются как естественные. Мы переосмысливаем задачу обнаружения фальсификаций в изображениях с помощью VLM, переходя от грубых меток областей к пиксельно-ориентированной, семантически и языково-обусловленной задаче. Во-первых, мы вводим таксономию, охватывающую примитивы редактирования (замена/удаление/вставка/восстановление/атрибуция/колоризация и т.д.) и семантический класс измененного объекта, связывая низкоуровневые изменения с высокоуровневым пониманием. Во-вторых, мы представляем новый эталон с попиксельными картами фальсификаций и парными категориальными метками для оценки обнаружения и классификации в рамках единого протокола. В-третьих, мы предлагаем framework для обучения и метрики оценки, которые количественно определяют корректность на уровне пикселей с локализацией для оценки уверенности или предсказания истинной интенсивности правки, а также дополнительно измеряют понимание смысла фальсификации через семантически-осознанную классификацию и естественно-языковые описания для предсказанных областей. Мы также переоцениваем существующие сильные базовые методы сегментации/локализации на современных мощных детекторах фальсификаций и выявляем существенные завышения и занижения оценок при использовании метрик, основанных только на масках, а также демонстрируем случаи ошибок на микро-правках и изменениях вне масок. Наш framework продвигает область от масок к пикселям, смыслам и языковым описаниям, устанавливая строгий стандарт для локализации фальсификаций, семантической классификации и описания. Код и данные эталона доступны по адресу https://github.com/VILA-Lab/PIXAR.
English
Existing tampering detection benchmarks largely rely on object masks, which severely misalign with the true edit signal: many pixels inside a mask are untouched or only trivially modified, while subtle yet consequential edits outside the mask are treated as natural. We reformulate VLM image tampering from coarse region labels to a pixel-grounded, meaning and language-aware task. First, we introduce a taxonomy spanning edit primitives (replace/remove/splice/inpaint/attribute/colorization, etc.) and their semantic class of tampered object, linking low-level changes to high-level understanding. Second, we release a new benchmark with per-pixel tamper maps and paired category supervision to evaluate detection and classification within a unified protocol. Third, we propose a training framework and evaluation metrics that quantify pixel-level correctness with localization to assess confidence or prediction on true edit intensity, and further measure tamper meaning understanding via semantics-aware classification and natural language descriptions for the predicted regions. We also re-evaluate the existing strong segmentation/localization baselines on recent strong tamper detectors and reveal substantial over- and under-scoring using mask-only metrics, and expose failure modes on micro-edits and off-mask changes. Our framework advances the field from masks to pixels, meanings and language descriptions, establishing a rigorous standard for tamper localization, semantic classification and description. Code and benchmark data are available at https://github.com/VILA-Lab/PIXAR.