Das Máscaras aos Pixels e ao Significado: Uma Nova Taxonomia, Benchmark e Métricas para a Manipulação de Imagens em VLMs

Resumo

Os atuais benchmarks de detecção de manipulação dependem amplamente de máscaras de objetos, o que se desalinha severamente com o verdadeiro sinal de edição: muitos pixels dentro de uma máscara permanecem intocados ou apenas trivialmente modificados, enquanto edições sutis, porém consequentes, fora da máscara são tratadas como naturais. Reformulamos a detecção de manipulação de imagens em VLMs (Vision-Language Models) de rótulos regionais grosseiros para uma tarefa fundamentada em pixels, consciente do significado e da linguagem. Primeiro, introduzimos uma taxonomia que abrange primitivas de edição (substituir/remover/emendar/preencher/atribuir/colorizar, etc.) e sua classe semântica do objeto manipulado, vinculando alterações de baixo nível à compreensão de alto nível. Segundo, lançamos um novo benchmark com mapas de manipulação por pixel e supervisão de categoria pareada para avaliar detecção e classificação dentro de um protocolo unificado. Terceiro, propomos um framework de treinamento e métricas de avaliação que quantificam a correção em nível de pixel com localização para avaliar a confiança ou previsão sobre a verdadeira intensidade da edição, e ainda medem a compreensão do significado da manipulação por meio de classificação consciente da semântica e descrições em linguagem natural para as regiões previstas. Também reavaliamos as fortes linhas de base existentes de segmentação/localização em detectores de manipulação recentes e robustos, revelando super e subavaliações substanciais usando métricas baseadas apenas em máscaras, e expondo modos de falha em microedições e alterações fora da máscara. Nosso framework avança o campo de máscaras para pixels, significados e descrições em linguagem natural, estabelecendo um padrão rigoroso para localização de manipulação, classificação semântica e descrição. Código e dados do benchmark estão disponíveis em https://github.com/VILA-Lab/PIXAR.

English

Existing tampering detection benchmarks largely rely on object masks, which severely misalign with the true edit signal: many pixels inside a mask are untouched or only trivially modified, while subtle yet consequential edits outside the mask are treated as natural. We reformulate VLM image tampering from coarse region labels to a pixel-grounded, meaning and language-aware task. First, we introduce a taxonomy spanning edit primitives (replace/remove/splice/inpaint/attribute/colorization, etc.) and their semantic class of tampered object, linking low-level changes to high-level understanding. Second, we release a new benchmark with per-pixel tamper maps and paired category supervision to evaluate detection and classification within a unified protocol. Third, we propose a training framework and evaluation metrics that quantify pixel-level correctness with localization to assess confidence or prediction on true edit intensity, and further measure tamper meaning understanding via semantics-aware classification and natural language descriptions for the predicted regions. We also re-evaluate the existing strong segmentation/localization baselines on recent strong tamper detectors and reveal substantial over- and under-scoring using mask-only metrics, and expose failure modes on micro-edits and off-mask changes. Our framework advances the field from masks to pixels, meanings and language descriptions, establishing a rigorous standard for tamper localization, semantic classification and description. Code and benchmark data are available at https://github.com/VILA-Lab/PIXAR.

Das Máscaras aos Pixels e ao Significado: Uma Nova Taxonomia, Benchmark e Métricas para a Manipulação de Imagens em VLMs

From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Resumo

Support