GDCNet: Rete Generativa di Confronto della Discrepanza per il Rilevamento del Sarcasmo Multimodale

Abstract

La rilevazione multimodale della sarcasmo (MSD) mira a identificare il sarcasmo in coppie immagine-testo modellando le incongruenze semantiche tra le modalità. I metodi esistenti sfruttano spesso il disallineamento degli embedding cross-modali per rilevare l'inconsistenza, ma faticano quando i contenuti visivi e testuali sono debolmente correlati o semanticamente indiretti. Sebbene gli approcci recenti utilizzino modelli linguistici di grandi dimensioni (LLM) per generare indizi sarcastici, l'intrinseca diversità e soggettività di queste generazioni introduce spesso rumore. Per affrontare queste limitazioni, proponiamo la Generative Discrepancy Comparison Network (GDCNet). Questo framework cattura i conflitti cross-modali utilizzando didascalie immagine descrittive e fattualmente fondate, generate da LLM multimodali (MLLM), come ancoraggi semantici stabili. Nello specifico, GDCNet calcola le discrepanze semantiche e sentimentali tra la descrizione oggettiva generata e il testo originale, misurando parallelamente la fedeltà visivo-testuale. Queste caratteristiche di discrepanza vengono quindi fuse con le rappresentazioni visive e testuali attraverso un modulo a cancello per bilanciare adattivamente i contributi modali. Esperimenti estesi su benchmark MSD dimostrano la superiore accuratezza e robustezza di GDCNet, stabilendo un nuovo stato dell'arte sul benchmark MMSD2.0.

English

Multimodal sarcasm detection (MSD) aims to identify sarcasm within image-text pairs by modeling semantic incongruities across modalities. Existing methods often exploit cross-modal embedding misalignment to detect inconsistency but struggle when visual and textual content are loosely related or semantically indirect. While recent approaches leverage large language models (LLMs) to generate sarcastic cues, the inherent diversity and subjectivity of these generations often introduce noise. To address these limitations, we propose the Generative Discrepancy Comparison Network (GDCNet). This framework captures cross-modal conflicts by utilizing descriptive, factually grounded image captions generated by Multimodal LLMs (MLLMs) as stable semantic anchors. Specifically, GDCNet computes semantic and sentiment discrepancies between the generated objective description and the original text, alongside measuring visual-textual fidelity. These discrepancy features are then fused with visual and textual representations via a gated module to adaptively balance modality contributions. Extensive experiments on MSD benchmarks demonstrate GDCNet's superior accuracy and robustness, establishing a new state-of-the-art on the MMSD2.0 benchmark.

GDCNet: Rete Generativa di Confronto della Discrepanza per il Rilevamento del Sarcasmo Multimodale

GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection

Abstract

Support