GDCNet: Generatief Discrepantie Vergelijkingsnetwerk voor Multimodale Sarcasme Detectie
GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection
January 28, 2026
Auteurs: Shuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao
cs.AI
Samenvatting
Multimodale sarcasmedetectie (MSD) heeft als doel sarcasme in beeld-tekstparen te identificeren door semantische incongruenties tussen modaliteiten te modelleren. Bestaande methoden benutten vaak de misalignering van cross-modale embeddings om inconsistentie te detecteren, maar worstelen wanneer visuele en tekstuele inhoud slechts losjes gerelateerd of semantisch indirect zijn. Hoewel recente benaderingen grote taalmodellen (LLM's) inzetten om sarcastische aanwijzingen te genereren, introduceert de inherente diversiteit en subjectiviteit van deze gegenereerde data vaak ruis. Om deze beperkingen aan te pakken, stellen we het Generative Discrepancy Comparison Network (GDCNet) voor. Dit framework vat cross-modale conflicten door gebruik te maken van beschrijvende, feitelijk onderbouwde beeldbijschriften gegenereerd door Multimodale LLM's (MLLM's) als stabiele semantische ankers. Concreet berekent GDCNet semantische en sentiment-discrepanties tussen de gegenereerde objectieve beschrijving en de originele tekst, naast het meten van visueel-textuele geloofwaardigheid. Deze discrepantiekenmerken worden vervolgens gefuseerd met visuele en tekstuele representaties via een gemoduleerde eenheid om de bijdragen van modaliteiten adaptief in balans te brengen. Uitgebreide experimenten op MSD-benchmarks tonen de superieure nauwkeurigheid en robuustheid van GDCNet aan, waarmee een nieuwe state-of-the-art wordt gevestigd op de MMSD2.0-benchmark.
English
Multimodal sarcasm detection (MSD) aims to identify sarcasm within image-text pairs by modeling semantic incongruities across modalities. Existing methods often exploit cross-modal embedding misalignment to detect inconsistency but struggle when visual and textual content are loosely related or semantically indirect. While recent approaches leverage large language models (LLMs) to generate sarcastic cues, the inherent diversity and subjectivity of these generations often introduce noise. To address these limitations, we propose the Generative Discrepancy Comparison Network (GDCNet). This framework captures cross-modal conflicts by utilizing descriptive, factually grounded image captions generated by Multimodal LLMs (MLLMs) as stable semantic anchors. Specifically, GDCNet computes semantic and sentiment discrepancies between the generated objective description and the original text, alongside measuring visual-textual fidelity. These discrepancy features are then fused with visual and textual representations via a gated module to adaptively balance modality contributions. Extensive experiments on MSD benchmarks demonstrate GDCNet's superior accuracy and robustness, establishing a new state-of-the-art on the MMSD2.0 benchmark.