GDCNet : Réseau de Comparaison de Discrepance Générative pour la Détection de Sarcasme Multimodal
GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection
January 28, 2026
papers.authors: Shuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao
cs.AI
papers.abstract
La détection multimodale du sarcasme (MSD) vise à identifier le sarcasme dans des paires image-texte en modélisant les incohérences sémantiques entre les modalités. Les méthodes existantes exploitent souvent le désalignement des plongements intermodaux pour détecter l'incohérence, mais peinent lorsque le contenu visuel et textuel est faiblement lié ou sémantiquement indirect. Bien que les approches récentes utilisent les grands modèles de langage (LLM) pour générer des indices sarcastiques, la diversité et la subjectivité inhérentes à ces générations introduisent souvent du bruit. Pour résoudre ces limitations, nous proposons le Réseau de Comparaison par Discrépance Générative (GDCNet). Ce cadre capture les conflits intermodaux en utilisant des descriptions d'images factuelles générées par des LLM multimodaux (MLLM) comme ancres sémantiques stables. Concrètement, GDCNet calcule les écarts sémantiques et sentimentaux entre la description objective générée et le texte original, tout en mesurant la fidélité visuo-textuelle. Ces caractéristiques de discrepancy sont ensuite fusionnées avec les représentations visuelles et textuelles via un module à porte pour équilibrer de manière adaptive les contributions des modalités. Des expériences approfondies sur des benchmarks de MSD démontrent la précision et la robustesse supérieures de GDCNet, établissant un nouvel état de l'art sur le benchmark MMSD2.0.
English
Multimodal sarcasm detection (MSD) aims to identify sarcasm within image-text pairs by modeling semantic incongruities across modalities. Existing methods often exploit cross-modal embedding misalignment to detect inconsistency but struggle when visual and textual content are loosely related or semantically indirect. While recent approaches leverage large language models (LLMs) to generate sarcastic cues, the inherent diversity and subjectivity of these generations often introduce noise. To address these limitations, we propose the Generative Discrepancy Comparison Network (GDCNet). This framework captures cross-modal conflicts by utilizing descriptive, factually grounded image captions generated by Multimodal LLMs (MLLMs) as stable semantic anchors. Specifically, GDCNet computes semantic and sentiment discrepancies between the generated objective description and the original text, alongside measuring visual-textual fidelity. These discrepancy features are then fused with visual and textual representations via a gated module to adaptively balance modality contributions. Extensive experiments on MSD benchmarks demonstrate GDCNet's superior accuracy and robustness, establishing a new state-of-the-art on the MMSD2.0 benchmark.