Von Masken zu Pixeln und Bedeutung: Eine neue Taxonomie, Benchmark und Metriken für Bildmanipulation mit visuell-sprachlichen Modellen

Zusammenfassung

Bestehende Benchmarks zur Manipulationserkennung basieren weitgehend auf Objektmasken, die sich stark von den tatsächlichen Bearbeitungssignalen unterscheiden: Viele Pixel innerhalb einer Maske sind unverändert oder nur trivial modifiziert, während subtile, aber folgenreiche Bearbeitungen außerhalb der Maske als natürlich eingestuft werden. Wir reformulieren die Bildmanipulationserkennung mit VLMs von groben Bereichslabels zu einer pixelbasierten, bedeutungs- und sprachbewussten Aufgabe. Erstens führen wir eine Taxonomie ein, die Bearbeitungsprimitive (Ersetzen/Entfernen/Einfügen/Retuschieren/Attributänderung/Kolorierung etc.) und ihre semantische Klasse des manipulierten Objekts umspannt und so low-level-Änderungen mit high-level-Verständnis verknüpft. Zweitens veröffentlichen wir einen neuen Benchmark mit pixelgenauen Manipulationskarten und gepaarten Kategorie-Labels, um Detektion und Klassifikation innerhalb eines einheitlichen Protokolls zu evaluieren. Drittens schlagen wir ein Trainingsframework und Evaluierungsmetriken vor, die pixelgenaue Korrektheit mit Lokalisierung quantifizieren, um die Konfidenz oder Vorhersage der tatsächlichen Bearbeitungsintensität zu bewerten, und darüber hinaus das Verständnis der Manipulationsbedeutung durch semantikbewusste Klassifikation und natürliche Sprachbeschreibungen für die vorhergesagten Regionen messen. Wir evaluieren zudem bestehende starke Segmentierungs-/Lokalisierungs-Baselines auf aktuellen leistungsfähigen Manipulationsdetektoren neu und zeigen erhebliche Über- und Unterbewertungen bei reinen Maskenmetriken auf, sowie Schwachstellen bei Mikro-Bearbeitungen und Änderungen außerhalb der Masken. Unser Framework führt das Feld von Masken zu Pixeln, Bedeutungen und Sprachbeschreibungen weiter und etabliert einen rigorosen Standard für Manipulationslokalisierung, semantische Klassifikation und Beschreibung. Code und Benchmark-Daten sind unter https://github.com/VILA-Lab/PIXAR verfügbar.

English

Existing tampering detection benchmarks largely rely on object masks, which severely misalign with the true edit signal: many pixels inside a mask are untouched or only trivially modified, while subtle yet consequential edits outside the mask are treated as natural. We reformulate VLM image tampering from coarse region labels to a pixel-grounded, meaning and language-aware task. First, we introduce a taxonomy spanning edit primitives (replace/remove/splice/inpaint/attribute/colorization, etc.) and their semantic class of tampered object, linking low-level changes to high-level understanding. Second, we release a new benchmark with per-pixel tamper maps and paired category supervision to evaluate detection and classification within a unified protocol. Third, we propose a training framework and evaluation metrics that quantify pixel-level correctness with localization to assess confidence or prediction on true edit intensity, and further measure tamper meaning understanding via semantics-aware classification and natural language descriptions for the predicted regions. We also re-evaluate the existing strong segmentation/localization baselines on recent strong tamper detectors and reveal substantial over- and under-scoring using mask-only metrics, and expose failure modes on micro-edits and off-mask changes. Our framework advances the field from masks to pixels, meanings and language descriptions, establishing a rigorous standard for tamper localization, semantic classification and description. Code and benchmark data are available at https://github.com/VILA-Lab/PIXAR.

Von Masken zu Pixeln und Bedeutung: Eine neue Taxonomie, Benchmark und Metriken für Bildmanipulation mit visuell-sprachlichen Modellen

From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Zusammenfassung

Support