GDCNet: Generatives Diskrepanzvergleichsnetzwerk zur multimodalen Sarkasmuserkennung
GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection
January 28, 2026
papers.authors: Shuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao
cs.AI
papers.abstract
Multimodale Sarkasmuserkennung (MSD) zielt darauf ab, Sarkasmus in Bild-Text-Paaren zu identifizieren, indem semantische Inkongruenzen zwischen den Modalitäten modelliert werden. Bestehende Methoden nutzen häufig eine Fehlausrichtung cross-modaler Einbettungen, um Inkonsistenzen zu erkennen, scheitern jedoch, wenn visuelle und textuelle Inhalte lose verknüpft oder semantisch indirekt sind. Während neuere Ansätze große Sprachmodelle (LLMs) nutzen, um sarkastische Hinweise zu generieren, führt die inhärente Diversität und Subjektivität dieser Generierungen oft Rauschen ein. Um diese Einschränkungen zu adressieren, schlagen wir das Generative Diskrepanz-Vergleichsnetzwerk (GDCNet) vor. Dieser Rahmen erfasst cross-modale Konflikte, indem deskriptive, faktenbasierte Bildbeschreibungen, die von multimodalen LLMs (MLLMs) generiert werden, als stabile semantische Anker genutzt werden. Konkret berechnet GDCNet semantische und sentimentbezogene Diskrepanzen zwischen der generierten objektiven Beschreibung und dem Originaltext und misst parallel die visuell-textuelle Treue. Diese Diskrepanzmerkmale werden anschließend über ein gated-Modul mit visuellen und textuellen Repräsentationen fusioniert, um Modalitätsbeiträge adaptiv auszubalancieren. Umfangreiche Experimente auf MSD-Benchmarks demonstrieren die überlegene Genauigkeit und Robustheit von GDCNet und etablieren einen neuen State-of-the-Art auf dem MMSD2.0-Benchmark.
English
Multimodal sarcasm detection (MSD) aims to identify sarcasm within image-text pairs by modeling semantic incongruities across modalities. Existing methods often exploit cross-modal embedding misalignment to detect inconsistency but struggle when visual and textual content are loosely related or semantically indirect. While recent approaches leverage large language models (LLMs) to generate sarcastic cues, the inherent diversity and subjectivity of these generations often introduce noise. To address these limitations, we propose the Generative Discrepancy Comparison Network (GDCNet). This framework captures cross-modal conflicts by utilizing descriptive, factually grounded image captions generated by Multimodal LLMs (MLLMs) as stable semantic anchors. Specifically, GDCNet computes semantic and sentiment discrepancies between the generated objective description and the original text, alongside measuring visual-textual fidelity. These discrepancy features are then fused with visual and textual representations via a gated module to adaptively balance modality contributions. Extensive experiments on MSD benchmarks demonstrate GDCNet's superior accuracy and robustness, establishing a new state-of-the-art on the MMSD2.0 benchmark.