GDCNet: Rede Generativa de Comparação de Discrepância para Detecção de Sarcasmo Multimodal
GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection
January 28, 2026
Autores: Shuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao
cs.AI
Resumo
A detecção multimodal de sarcasmo (MSD) visa identificar sarcasmo em pares imagem-texto através da modelagem de incongruências semânticas entre modalidades. Os métodos existentes frequentemente exploram o desalinhamento de *embeddings* cruzados para detetar inconsistência, mas lutam quando o conteúdo visual e textual está vagamente relacionado ou é semanticamente indireto. Embora abordagens recentes aproveitem grandes modelos de linguagem (LLMs) para gerar pistas sarcásticas, a diversidade inerente e a subjetividade dessas gerações frequentemente introduzem ruído. Para superar estas limitações, propomos a *Generative Discrepancy Comparison Network* (GDCNet). Esta estrutura captura conflitos entre modalidades utilizando legendas de imagem descritivas e factualmente fundamentadas, geradas por LLMs multimodais (MLLMs), como âncoras semânticas estáveis. Especificamente, a GDCNet calcula discrepâncias semânticas e de sentimento entre a descrição objetiva gerada e o texto original, paralelamente à medição da fidelidade visual-textual. Estas características de discrepância são depois fundidas com representações visuais e textuais através de um módulo com portão para equilibrar adaptativamente as contribuições das modalidades. Experiências extensivas em *benchmarks* de MSD demonstram a precisão e robustez superiores da GDCNet, estabelecendo um novo estado da arte no *benchmark* MMSD2.0.
English
Multimodal sarcasm detection (MSD) aims to identify sarcasm within image-text pairs by modeling semantic incongruities across modalities. Existing methods often exploit cross-modal embedding misalignment to detect inconsistency but struggle when visual and textual content are loosely related or semantically indirect. While recent approaches leverage large language models (LLMs) to generate sarcastic cues, the inherent diversity and subjectivity of these generations often introduce noise. To address these limitations, we propose the Generative Discrepancy Comparison Network (GDCNet). This framework captures cross-modal conflicts by utilizing descriptive, factually grounded image captions generated by Multimodal LLMs (MLLMs) as stable semantic anchors. Specifically, GDCNet computes semantic and sentiment discrepancies between the generated objective description and the original text, alongside measuring visual-textual fidelity. These discrepancy features are then fused with visual and textual representations via a gated module to adaptively balance modality contributions. Extensive experiments on MSD benchmarks demonstrate GDCNet's superior accuracy and robustness, establishing a new state-of-the-art on the MMSD2.0 benchmark.